Общество

Российские ученые придумали нейросеть, распознающую речь по губам

Российские ученые придумали нейросеть, распознающую речь по губам
Российские ученые придумали нейросеть, распознающую речь по губам

Ученые Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) разработали алгоритм и программу для смартфона, которые позволяют считывать речь пользователя по губам в шумных местах. Таким образом может повыситься точность распознавания слов в сложных условиях. Приложение может использоваться повсеместно: от сферы услуг до тяжелой промышленности, заявили в пресс-службе СПб ФИЦ РАН.

"Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например в людных местах или при управлении тяжелой техникой", – отметили представители научного центра.

В настоящее время люди часто используют голосовые команды и на работе, и в повседневной жизни (поисковики на смартфоне). Однако если в условиях относительной тишины искусственный интеллект распознает произносимые слова относительно точно, то при ощутимых шумах команда либо не распознается, либо искажается и даже обретает противоположный смысл.

Для решения проблемы с трудностями в распознавании речи ученые СПб ФИЦ РАН разработали нейронную сеть, собирающую два вида информации по аналогии с человеческим восприятием – и звуковую форму речи, и движения губ, которые ее сопровождают. В тестировании приложения помогли водители шумных большегрузных автомобилей одной из отечественных логистических компаний.

"В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность", - добавили специалисты.

По итогам исследования стало очевидно, что совмещение двух видов считывания данных значительно повышает эффективность работы алгоритмов - только благодаря чтению губ точность распознавания команд выросла до 60-80%, а в комбинации со звуковым сигналом - до 90%.

Ранее физики из Российского квантового центра и Физического института имени Лебедева впервые показали, как может быть организован онлайн-доступ к отечественному ионному компьютеру. Они создали веб-интерфейс, через который можно запускать вычисления. В ходе презентации ученые удаленно запускали на компьютере ряд важных квантовых алгоритмов.