Термин · Глоссарий B2B-ПО

A/B-тест модели

A/B-тест модели – контролируемый online-эксперимент по сравнению двух версий ML-модели (контрольной и экспериментальной) на реальном трафике. Пользователи случайно делятся на группы, каждая получает предсказания от своей версии модели; результаты сравниваются по бизнес-метрикам для принятия решения о выкатке.

Буква «A» В категориях: 3 Платформ: 6+

Что такое A/B-тест ML-модели

A/B-тест модели (Model A/B Testing) – контролируемый эксперимент, в котором два варианта ML-модели (версия A – действующая, версия B – новая) одновременно получают реальный трафик от случайно разделённых групп пользователей. Цель – определить, которая из версий даёт лучшие бизнес-результаты, используя реальных пользователей вместо исторических данных.

В отличие от офлайн-оценки на тестовой выборке (evaluation на hold-out), A/B-тест улавливает воздействие модели на поведение пользователей – конверсию, удержание, средний чек. Офлайн-метрики и онлайн-метрики нередко расходятся: модель с лучшим AUC-ROC может хуже конвертировать реальных пользователей.

Предпосылки и история A/B-тестирования в ML

A/B-тестирование как статистический метод известно с начала XX века (Р. Фишер, 1935). В веб-индустрии его популяризировали Google и Amazon в 2000-х. Применение к ML-моделям (Multi-Armed Bandit, shadow testing, champion/challenger) стало стандартом MLOps в 2015–2020-х с развитием платформ Optimizely, Netflix Experimentation Platform, Uber Superstar.

Виды A/B-тестирования моделей

  • Классический A/B-тест: 50% трафика получает модель A, 50% – модель B. Фиксированное деление на заданный период до накопления статистики.
  • Multi-Armed Bandit: Адаптивное распределение трафика в пользу лучшей модели в режиме реального времени (алгоритмы UCB, Thompson Sampling). Балансирует exploration и exploitation.
  • Shadow mode (теневой тест): Новая модель получает весь трафик, но её предсказания не отдаются пользователям – только логируются. Безрисковая проверка корректности новой версии.
  • Canary deployment: Постепенное увеличение доли трафика для новой модели (1% → 5% → 20% → 100%) с мониторингом метрик на каждом шаге.
  • Champion/Challenger: Challenger (новая модель) получает малую долю трафика (10–20%) для непрерывного сравнения с champion-моделью.

Статистическая основа A/B-теста

Для корректного A/B-теста необходимо:

  • Размер выборки: рассчитывается по формулам статистической мощности (power ≥ 0,8), уровню значимости (α ≤ 0,05) и ожидаемому эффекту (MDE – minimum detectable effect).
  • Рандомизация: пользователи делятся случайно, исключая систематическое смещение.
  • t-тест / z-тест: для непрерывных метрик (средний чек, время сессии).
  • χ²-тест: для долевых метрик (конверсия, CTR).
  • CUPED (Controlled-experiment Using Pre-Experiment Data): снижение дисперсии через ковариаты для ускорения накопления статистики.

Как провести A/B-тест ML-модели

Типовой процесс: 1) Shadow mode для проверки отсутствия критических ошибок → 2) Canary 1–5% трафика → 3) Полноценный A/B-тест с накоплением статистической значимости → 4) Анализ результатов → 5) Принятие решения о full rollout или откате. Весь эксперимент логируется в системе отслеживания экспериментов (MLflow, Weights & Biases).

Связь с другими понятиями

A/B-тест модели – инструмент мониторинга модели в production. Его результаты влияют на решение о переобучении или отзыве модели. Тест связан с prediction service, который обеспечивает маршрутизацию трафика между версиями. Метрики теста включают F1-score, precision, recall и бизнес-KPI.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «A/B-тест модели».

Платформы класса «A/B-тест модели»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...
Цена по запросу
★ 4.5
Подробнее →
ФО

Форпост

Управление городской инфраструктурой
Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...
Цена по запросу
★ 4.8
Подробнее →
Сервис идентификации потенциальных клиентов на сайте
Цена по запросу
Подробнее →
ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...
Цена по запросу
★ 4.5
Подробнее →
ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой
ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «A/B-тест модели».

Где применяется

Отрасли, в которых «A/B-тест модели» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про A/B-тест модели

Сколько времени нужно проводить A/B-тест модели?

До накопления статистической значимости: обычно 1–4 недели. Время зависит от трафика, размера эффекта и уровня значимости (α = 0,05).

Что такое shadow mode в тестировании моделей?

Shadow mode – режим, при котором новая модель получает тот же трафик, что и рабочая, но её предсказания не используются. Позволяет проверить корректность без риска.

Чем Multi-Armed Bandit отличается от обычного A/B-теста?

MAB адаптивно перераспределяет трафик в пользу лучшей модели в реальном времени, снижая потери от плохой версии.

Нужно ли проводить A/B-тест после каждого переобучения?

Рекомендуется как минимум shadow-тест или canary deployment. Полный A/B-тест обязателен при значительных изменениях архитектуры или обучающих данных.

Какие метрики сравнивать в A/B-тесте ML-модели?

Бизнес-метрики (конверсия, CTR, удержание) – первичны. Технические метрики (F1, AUC-ROC) – вторичны как диагностика.

Что такое CUPED в A/B-тестировании?

Controlled-experiment Using Pre-Experiment Data – метод снижения дисперсии результатов с помощью данных до эксперимента, ускоряющий накопление значимости.