Речь в сервисах VK теперь распознаётся на 20% точнее

Инженеры VK усовершенствовали технологию распознавания речи — теперь она работает на 20% эффективнее предыдущей версии. Это обновление напрямую влияет на качество автоматических субтитров в видео, а также на расшифровку голосовых сообщений и "кружочков".

Чтобы добиться такого результата, нейросеть дообучили на большом массиве аудиодорожек из публичных роликов "VK Видео". Теперь алгоритмы точнее улавливают темп и манеру речи, а также очищают запись от посторонних шумов. Модель анализирует не просто отдельные звуки, но и контекст: она распознаёт смысловые связи и устойчивые выражения, делая расшифровку более естественной.

Обновлённая технология уже запущена в "VK Видео" и "VK Клипах". Также решения используются в образовательной платформе Учи.ру и при расшифровке голосовых сообщений в мессенджере ВКонтакте. Постепенно улучшенную модель внедрят во внутренние сервисы компании и другие продукты экосистемы.

В планах команды AI VK также научить систему распознавать голоса разных спикеров (диаризация), добавить поддержку новых языков и продолжить работу над точностью распознавания голосовых сообщений.