Кейс Проект #2993 Медиа, искусство и развлечения · опубликовано 1 июля 2025

VK AI — ASR v2: улучшенная технология распознавания речи для видеосервисов

Описание проекта

В декабре 2025 года инженеры VK AI выпустили обновлённую версию ASR-технологии. Ключевое улучшение: дообучение модели на расширенном датасете из публично доступных видеороликов «VK Видео». Это позволило адаптировать модель к реальному разговорному русскому языку в разнообразных акустических условиях — специфика UGC (user-generated content). Применения ASR v2:
VK Видео — автоматические субтитры
VK Клипы — субтитры к коротким вертикальным видео
Учи.ру — транскрибация образовательного контента
Голосовые сообщения ВКонтакте — расшифровка аудиосообщений в текст

Задача

Предыдущая версия ASR демонстрировала сниженную точность на разговорном UGC-контенте с фоновым шумом, сленгом, акцентами и специфической терминологией. Требовалось улучшить качество модели без потери производительности.

Цели внедрения

Повысить точность распознавания речи в реальных акустических условиях UGC
Расширить применение ASR на новые продукты экосистемы VK
Создать модель мирового уровня для русского языка

Результаты

Финансы
Не раскрыты Время
Выпуск ASR v2: декабрь 2025 Качество и эффективность
Точность распознавания речи выросла на 20% по сравнению с предыдущей версией
По WER (Word Error Rate) на русском языке модель превосходит зарубежные открытые аналоги
Применяется в 4 продуктах экосистемы VK Нагрузка и масштаб
VK Видео: 90% контента с субтитрами (данные февраль 2025)
ВКонтакте: сотни миллионов голосовых сообщений в месяц
Учи.ру: образовательный контент для школьников Надёжность
Дообучение на реальном датасете VK Видео обеспечивает устойчивость к UGC-условиям Импортозамещение и compliance
Полностью российская разработка; по метрикам WER на русском превосходит зарубежные открытые решения Качественный эффект (если цифры не раскрыты): Обновление ASR позволило расширить применение технологии на весь продуктовый портфель VK — от видеоплатформы до образования и мессенджера.

← Все кейсы

VK AI — ASR v2: улучшенная технология распознавания речи для видеосервисов

Описание проекта

Задача

Цели внедрения

Результаты

Контур Толк: Вебинары

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли