В «VK Видео» улучшено автоматическое распознавание речи на 25%
Для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте сервис «VK Видео» запустил новые алгоритмы искусственного интеллекта. Это позволило на 25 % улучшить точность анализа и расшифровки. Вместе с тем нейросети уже знают многие имена собственные, понимают аббревиатуры, профессиональные термины и мемы.
Перевод речи в субтитры происходит автоматически с помощью ML-моделей, призванных создавать текст, расставлять в нем необходимые знаки препинания и синхронизировать с видео. Точность полученного текста обеспечивается несколькими этапами обработки аудиопотока. Сначала нейросеть убирает посторонние звуки, распознает речь и переводит ее в текст. Набор из распознанных слов в понятный и удобный для чтения текст превращают модели пунктуации и денормализации. На третьем этапе выполняется синхронизация текста с аудиодорожкой.
Нейросети стремительно обучаются, поэтому совсем скоро они смогут разделять речь разных спикеров на отдельные реплики, что существенно упростит чтение и восприятие субтитров.
В настоящее время субтитрами в «VK Видео» пользуется 11 % всей аудитории платформы. За последний месяц доля пользователей этой функции расширилась на 28 %. Технология востребована людьми с нарушениями слуха. Кроме того, ее удобно использовать, когда по разным причинам нет возможности включить звук при просмотре видео.
Источник: CNews