VK AI — ASR v2: улучшенная технология распознавания речи для видеосервисов
Описание проекта
-
В декабре 2025 года инженеры VK AI выпустили обновлённую версию ASR-технологии. Ключевое улучшение: дообучение модели на расширенном датасете из публично доступных видеороликов «VK Видео». Это позволило адаптировать модель к реальному разговорному русскому языку в разнообразных акустических условиях — специфика UGC (user-generated content). Применения ASR v2:
-
VK Видео — автоматические субтитры
-
VK Клипы — субтитры к коротким вертикальным видео
-
Учи.ру — транскрибация образовательного контента
-
Голосовые сообщения ВКонтакте — расшифровка аудиосообщений в текст
Задача
Предыдущая версия ASR демонстрировала сниженную точность на разговорном UGC-контенте с фоновым шумом, сленгом, акцентами и специфической терминологией. Требовалось улучшить качество модели без потери производительности.
Цели внедрения
-
Повысить точность распознавания речи в реальных акустических условиях UGC
-
Расширить применение ASR на новые продукты экосистемы VK
-
Создать модель мирового уровня для русского языка
Результаты
-
Финансы
-
Не раскрыты Время
-
Выпуск ASR v2: декабрь 2025 Качество и эффективность
-
Точность распознавания речи выросла на 20% по сравнению с предыдущей версией
-
По WER (Word Error Rate) на русском языке модель превосходит зарубежные открытые аналоги
-
Применяется в 4 продуктах экосистемы VK Нагрузка и масштаб
-
VK Видео: 90% контента с субтитрами (данные февраль 2025)
-
ВКонтакте: сотни миллионов голосовых сообщений в месяц
-
Учи.ру: образовательный контент для школьников Надёжность
-
Дообучение на реальном датасете VK Видео обеспечивает устойчивость к UGC-условиям Импортозамещение и compliance
-
Полностью российская разработка; по метрикам WER на русском превосходит зарубежные открытые решения Качественный эффект (если цифры не раскрыты): Обновление ASR позволило расширить применение технологии на весь продуктовый портфель VK — от видеоплатформы до образования и мессенджера.