VK — ИИ-рекомендации Discovery: мультимодальная языковая модель и распознавание персон
Описание проекта
VK внедрила технологии рекомендаций Discovery — комплекс из двух ИИ-моделей для глубокого понимания контента. Мультимодальная языковая модель (MMLM), обученная на 3+ млн русскоязычных материалов, сравнивает контент по смыслу, интерпретирует сюжеты, объясняет комментарии и учитывает эмоциональный тон. Кросс-форматная контентная модель анализирует название, обложку, аудио и видеоряд в едином пространстве, объединяя разные форматы. Система CV-распознавания (два ML-алгоритма) анализирует видеоряд с частотой 1 кадр/с и определяет лица, формируя «образ» персоны для рекомендаций связанного контента. Среднесуточное число просмотров видео в VK Видео за Q4 2023 выросло на 18% (до 2,3 млрд), суммарное время просмотра — на 38%.
Задача
При огромном объёме UGC-контента ручная подборка невозможна. Старые алгоритмы не понимали смысл видеоконтента и не могли связывать контент разных форматов (видео, музыка, короткие ролики) в единых рекомендациях.
Цели внедрения
-
Повысить точность рекомендаций похожих по смыслу видео
-
Ускорить показ нового контента без ожидания первых пользовательских реакций
-
Создать кросс-форматные рекомендации (предложить видео по понравившемуся тексту или наоборот)
-
Внедрить распознавание персон для рекомендаций контента с любимыми героями
Результаты
-
Финансы
-
Рост времени просмотра прямо влияет на рекламный инвентарь; конкретные данные не раскрыты Время
-
Система ускоряет показ нового контента: может рекомендовать его без накопленных пользовательских реакций Качество и эффективность
-
Позитивные реакции пользователей на контент выросли на 7% после внедрения Discovery
-
Точность рекомендаций похожих по смыслу видео выросла на 60%
-
Среднесуточное число просмотров в VK Видео за Q4 2023: +18% г/г (до 2,3 млрд)
-
Суммарное время просмотра VK Видео за 2023 год: +38% Нагрузка и масштаб
-
MMLM обучена на 3+ млн русскоязычных материалов
-
Обрабатывает видео, изображения, тексты, аудио в едином пространстве
-
CV-модель анализирует видеоряд с частотой 1 кадр/с в реальном времени
-
Распространяется на VK Видео, VK Клипы, ВКонтакте и другие продукты с UGC Надёжность
-
Результаты не раскрыты публично Импортозамещение и compliance
-
Полностью российская разработка; независимость от алгоритмов TikTok, YouTube, Meta Reels
-
Модель обучена на русскоязычных данных — адаптирована к российскому культурному контексту
-
Обработка данных в российской инфраструктуре в соответствии с 152-ФЗ Качественный эффект: VK занял позицию ведущего российского видеохостинга после ограничений YouTube в России. Система Discovery — технологическая основа этой конкурентоспособности: увеличение времени просмотра на 38% доказывает масштаб эффекта.