Яндекс Браузер — ИИ-дубляж видео с переносом тембра и интонации
Описание проекта
Яндекс разработал и внедрил в Яндекс Браузер систему ИИ-перевода и дубляжа видео нового поколения, которая сохраняет тембр и интонацию оригинального голоса говорящего. Ранее система использовала ограниченный набор голосов (мужской/женский); теперь нейросеть клонирует голос каждого спикера. Пайплайн включает: ASR (распознавание речи) → диаризация спикеров → машинный перевод → синтез речи с переносом тембра → постобработка аудио. Доля синтеза с иностранным акцентом снижена с 50% до 5%. Итоговый RTF ≈ 0,18 (синтез быстрее реального времени в 5,5 раза), что позволяет работать в режиме, близком к реальному времени.
Задача
Прежние системы машинного перевода видео использовали фиксированный набор из 2 голосов, что давало неестественный результат. Пользователи воспринимали перевод как «роботизированный». Конкуренты (ElevenLabs и пр.) предлагали голосовое клонирование, но уступали в end2end-качестве перевода видео.
Цели внедрения
-
Обеспечить естественное звучание переведённого видео с сохранением индивидуальности голоса
-
Снизить акцент при переносе тембра с иностранного языка на русский
-
Ускорить инференс для работы в режиме, близком к реальному времени
-
Предоставить российским пользователям качественный доступ к иноязычному контенту
Результаты
-
Финансы
-
Результаты не раскрыты публично; технология интегрирована в бесплатный Яндекс Браузер для удержания аудитории Время
-
RTF (Real-Time Factor) снижен с >1 до ≈0,18 — ускорение инференса более чем в 5,5 раза
-
Число гипотез языковой модели сокращено с 512 до 16 без потери качества
-
Число итераций диффузионной модели сокращено со 100 до 20 Качество и эффективность
-
Новая система предпочтительнее старой в 72% случаев по оценке внутренних асессоров (side-by-side тест)
-
Доля синтеза с иностранным акцентом снижена с 50% до 5%
-
В end2end-замере перевода с английского на русский система превосходит ElevenLabs
-
Переведены уже миллионы часов видеоконтента Нагрузка и масштаб
-
Работает на платформах: YouTube, VK Видео, Дзен, Rutube
-
Доступно всем пользователям Яндекс Браузера, авторизованным через Яндекс ID
-
Поддерживает 8 языков: английский, немецкий, китайский, французский, испанский, итальянский, корейский, японский Надёжность
-
Результаты не раскрыты публично Импортозамещение и compliance
-
Российская альтернатива ElevenLabs и другим зарубежным системам голосового клонирования
-
Полная обработка данных в инфраструктуре Яндекса без передачи за рубеж
-
Технология работает без OpenAI, Meta и иных зарубежных API Качественный эффект: Яндекс создал ключевую технологию для доступа российских пользователей к иноязычному видеоконтенту в условиях ограниченного доступа к зарубежным стриминговым сервисам; технология также применима для ИИ-дубляжа в медиапроизводстве.
Запросить детали внедрения
Мы передадим ваш запрос вендору. Ответ в течение 1 рабочего дня.