VK Видео — ИИ-генерация субтитров на базе ASR (автоматическое распознавание речи)
Описание проекта
Команда VK Видео построила полный ML-конвейер для автоматической генерации субтитров к видеоконтенту:
- Шумоподавление аудиодорожки
- ASR — распознавание речи (модель Conformer RNN-T с позиционными эмбеддингами RoPE)
- Пунктуация и денормализация — добавление знаков препинания и заглавных букв
- Синхронизация субтитров с таймкодами видео
Модель дообучена на корпусе редких и трудных слов, именных сущностей, терминов, брендов и топонимов с использованием shallow fusion (статистическая языковая модель + ASR).
В феврале 2025 года команда провела масштабное обновление архитектуры: переход на GPU-предобработку, батчинг, FP16 и CUDA Graphs в авторегрессионном декодере.
Задача
В 2024 году субтитры были доступны лишь для 9% видео на платформе. Субтитры входят в топ-10 важных функций по результатам KANO-исследования VK Видео (6-е место). По данным Verizon Media, 85% пользователей смотрят видео в соцсетях без звука; 80% с большей вероятностью досматривают видео до конца при наличии субтитров.
Цели внедрения
-
Охватить субтитрами максимальную долю контента платформы
-
Повысить точность распознавания русской речи
-
Улучшить доступность видеоконтента
-
Создать конкурентоспособную отечественную ASR-систему
Результаты
-
Финансы
-
Не раскрыты Время
-
Сентябрь 2024: первый крупный апгрейд, точность +25%
-
Февраль 2025: охват субтитрами вырос в 10 раз (с 9% до 90% контента) за один квартал Качество и эффективность
-
Охват субтитрами: с 9% (2024) до 90% контента (февраль 2025) — рост в 10 раз
-
Точность распознавания речи выросла на 25% (сентябрь 2024)
-
На 30% меньше ошибок, чем у аналогичных моделей конкурентов (на одном и том же тестовом контенте)
-
WER открытых решений на бенчмарке VK: ~20%; у системы VK — значительно ниже Нагрузка и масштаб
-
11% аудитории VK Видео использует субтитры
-
Доля пользователей через веб-версию выросла на +28% за месяц после внедрения
-
Применяется также в VK Клипах, Учи.ру, голосовых сообщениях ВКонтакте Надёжность
-
Обработка на GPU с батч-инференсом и FP16 обеспечивает масштабируемость
-
Ограничение: видео длиннее 5 часов не обрабатываются во избежание перегрузки Импортозамещение и compliance
-
Полностью собственная российская ASR-система; превосходит зарубежные открытые модели по WER на русском языке Качественный эффект (если цифры не раскрыты): Субтитры стали ключевой функцией доступности: по данным исследований, субтитры помогают 37% зрителей включить звук, 27% — сосредоточиться на контенте, 29% — лучше понять происходящее.