В «VK Видео» улучшено автоматическое распознавание речи на 25%

IT
17 сентября 18:40

Для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте сервис «VK Видео» запустил новые алгоритмы искусственного интеллекта. Это позволило на 25 % улучшить точность анализа и расшифровки. Вместе с тем нейросети уже знают многие имена собственные, понимают аббревиатуры, профессиональные термины и мемы.

Перевод речи в субтитры происходит автоматически с помощью ML-моделей, призванных создавать текст, расставлять в нем необходимые знаки препинания и синхронизировать с видео. Точность полученного текста обеспечивается несколькими этапами обработки аудиопотока. Сначала нейросеть убирает посторонние звуки, распознает речь и переводит ее в текст. Набор из распознанных слов в понятный и удобный для чтения текст превращают модели пунктуации и денормализации. На третьем этапе выполняется синхронизация текста с аудиодорожкой.

Нейросети стремительно обучаются, поэтому совсем скоро они смогут разделять речь разных спикеров на отдельные реплики, что существенно упростит чтение и восприятие субтитров.

В настоящее время субтитрами в «VK Видео» пользуется 11 % всей аудитории платформы. За последний месяц доля пользователей этой функции расширилась на 28 %. Технология востребована людьми с нарушениями слуха. Кроме того, ее удобно использовать, когда по разным причинам нет возможности включить звук при просмотре видео.

Источник: CNews