VK ASR (Автоматическое распознавание речи) — TAdviser

VK ASR (Automatic Speech Recognition) Продукт Речевые технологии: на пути от распознавания к пониманию 2025: Оптимизация технологии преобразования речи в текст Инженеры AI VK улучшили технологию автоматического распознавания речи (ASR) на базе моделей машинного обучения . Решение распознает речь на 20% точнее по сравнению с предыдущей версией, что повышает качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах группы. Об этом VK сообщила 8 декабря 2025 года. Фото: VK Технология автоматического распознавания речи (ASR) превращает голос в текст: она переводит звук в цифровой формат, очищает запись от шума и анализирует особенности звучания, чтобы понять, какие слова произнесены. LLM и нейросетевые модели помогают системе понимать контекст, смысловые связи и устойчивые выражения, благодаря чему расшифровка становится естественной и точной. Обновленная версия ASR-технологий VK дообучена на расширенном датасете аудиодорожек из публично доступных видеороликов VK Видео , поэтому точнее понимает темп и манеру речи. По итогам внутренних тестов, модель превосходит зарубежные аналоги и сервисы по качеству распознавания (WER) звуковых дорожек видео на русском языке . ASR-технологии VK используются в создании субтитров в VK Видео, VK Клипах , Учи.ру и в голосовых сообщениях мессенджера ВКонтакте . Они применяются для внутренних и инженерных задач, например, для расшифровки встреч или их суммаризации, а также для улучшения мультимодальных моделей в рекомендательной системе Discovery. Обновлённая версия уже работает в VK Видео и VK Клипах, используется во внутренних сервисах команды VK и постепенно будет внедряться в другие продукты группы. В планах у команды AI VK – повышение точности распознавания голосовых сообщений, расширение поддержки языков и добавление диаризации (разделения по спикерам). Source: https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82%3AVK_ASR_%28Automatic_Speech_Recognition%29