Кейс Проект #2992 Медиа, искусство и развлечения · опубликовано 1 июля 2024

VK Видео — ИИ-генерация субтитров на базе ASR (автоматическое распознавание речи)

Описание проекта

Команда VK Видео построила полный ML-конвейер для автоматической генерации субтитров к видеоконтенту:

Шумоподавление аудиодорожки
ASR — распознавание речи (модель Conformer RNN-T с позиционными эмбеддингами RoPE)
Пунктуация и денормализация — добавление знаков препинания и заглавных букв
Синхронизация субтитров с таймкодами видео

Модель дообучена на корпусе редких и трудных слов, именных сущностей, терминов, брендов и топонимов с использованием shallow fusion (статистическая языковая модель + ASR).

В феврале 2025 года команда провела масштабное обновление архитектуры: переход на GPU-предобработку, батчинг, FP16 и CUDA Graphs в авторегрессионном декодере.

Задача

В 2024 году субтитры были доступны лишь для 9% видео на платформе. Субтитры входят в топ-10 важных функций по результатам KANO-исследования VK Видео (6-е место). По данным Verizon Media, 85% пользователей смотрят видео в соцсетях без звука; 80% с большей вероятностью досматривают видео до конца при наличии субтитров.

Цели внедрения

Охватить субтитрами максимальную долю контента платформы
Повысить точность распознавания русской речи
Улучшить доступность видеоконтента
Создать конкурентоспособную отечественную ASR-систему

Результаты

Финансы
Не раскрыты Время
Сентябрь 2024: первый крупный апгрейд, точность +25%
Февраль 2025: охват субтитрами вырос в 10 раз (с 9% до 90% контента) за один квартал Качество и эффективность
Охват субтитрами: с 9% (2024) до 90% контента (февраль 2025) — рост в 10 раз
Точность распознавания речи выросла на 25% (сентябрь 2024)
На 30% меньше ошибок, чем у аналогичных моделей конкурентов (на одном и том же тестовом контенте)
WER открытых решений на бенчмарке VK: ~20%; у системы VK — значительно ниже Нагрузка и масштаб
11% аудитории VK Видео использует субтитры
Доля пользователей через веб-версию выросла на +28% за месяц после внедрения
Применяется также в VK Клипах, Учи.ру, голосовых сообщениях ВКонтакте Надёжность
Обработка на GPU с батч-инференсом и FP16 обеспечивает масштабируемость
Ограничение: видео длиннее 5 часов не обрабатываются во избежание перегрузки Импортозамещение и compliance
Полностью собственная российская ASR-система; превосходит зарубежные открытые модели по WER на русском языке Качественный эффект (если цифры не раскрыты): Субтитры стали ключевой функцией доступности: по данным исследований, субтитры помогают 37% зрителей включить звук, 27% — сосредоточиться на контенте, 29% — лучше понять происходящее.

← Все кейсы

VK Видео — ИИ-генерация субтитров на базе ASR (автоматическое распознавание речи)

Описание проекта

Задача

Цели внедрения

Результаты

Контур Толк: Вебинары

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли