Наука28.11.2022 - 02:23

Британские учёные научили компьютер чтению по губам на разных языках

Исследователи из Имперского колледжа Лондона в Англии недавно воссоздали новую модель, позволяющую решать задачи визуального распознавания речи (VSR) на нескольких языках.

Фото: коллаж RuNews24.ru

Научную статью опубликовал журнал Nature Machine Intelligence.

Как пишет TechXplore, доктор философии и автор исследования Пинчуань Ма и его коллеги смогли заставить искусственный интеллект распознавать речь на языках, отличных от английского, по движениям губ говорящих. Позже они сравнили производительность с другими моделями, обученными распознавать английскую речь.

Он также добавил, что главной инновацией является обучение модели выполнению VSR при добавлении нескольких дополнительных методов увеличения данных и функции потери.

«Мы добились самых современных результатов на нескольких языках благодаря тщательному проектированию модели, а не просто использованию больших наборов данных или больших моделей», - подчеркнул Ма.

По его словам, их работа может вдохновить других учёных на разработку альтернативных моделей VSR, которые смогут эффективно распознавать речь по движениям губ на языках, отличных от английского.

В планах Ма и его команды провести исследования по комбинированию моделей VSR с аудио-распознаванием речи.