Термин · Глоссарий B2B-ПО

A/B-тест модели

A/B-тест модели – контролируемый online-эксперимент по сравнению двух версий ML-модели (контрольной и экспериментальной) на реальном трафике. Пользователи случайно делятся на группы, каждая получает предсказания от своей версии модели; результаты сравниваются по бизнес-метрикам для принятия решения о выкатке.

Буква «A» В категориях: 3 Платформ: 6+

Что такое A/B-тест ML-модели

A/B-тест модели (Model A/B Testing) – контролируемый эксперимент, в котором два варианта ML-модели (версия A – действующая, версия B – новая) одновременно получают реальный трафик от случайно разделённых групп пользователей. Цель – определить, которая из версий даёт лучшие бизнес-результаты, используя реальных пользователей вместо исторических данных.

В отличие от офлайн-оценки на тестовой выборке (evaluation на hold-out), A/B-тест улавливает воздействие модели на поведение пользователей – конверсию, удержание, средний чек. Офлайн-метрики и онлайн-метрики нередко расходятся: модель с лучшим AUC-ROC может хуже конвертировать реальных пользователей.

Предпосылки и история A/B-тестирования в ML

A/B-тестирование как статистический метод известно с начала XX века (Р. Фишер, 1935). В веб-индустрии его популяризировали Google и Amazon в 2000-х. Применение к ML-моделям (Multi-Armed Bandit, shadow testing, champion/challenger) стало стандартом MLOps в 2015–2020-х с развитием платформ Optimizely, Netflix Experimentation Platform, Uber Superstar.

Виды A/B-тестирования моделей

Классический A/B-тест: 50% трафика получает модель A, 50% – модель B. Фиксированное деление на заданный период до накопления статистики.
Multi-Armed Bandit: Адаптивное распределение трафика в пользу лучшей модели в режиме реального времени (алгоритмы UCB, Thompson Sampling). Балансирует exploration и exploitation.
Shadow mode (теневой тест): Новая модель получает весь трафик, но её предсказания не отдаются пользователям – только логируются. Безрисковая проверка корректности новой версии.
Canary deployment: Постепенное увеличение доли трафика для новой модели (1% → 5% → 20% → 100%) с мониторингом метрик на каждом шаге.
Champion/Challenger: Challenger (новая модель) получает малую долю трафика (10–20%) для непрерывного сравнения с champion-моделью.

Статистическая основа A/B-теста

Для корректного A/B-теста необходимо:

Размер выборки: рассчитывается по формулам статистической мощности (power ≥ 0,8), уровню значимости (α ≤ 0,05) и ожидаемому эффекту (MDE – minimum detectable effect).
Рандомизация: пользователи делятся случайно, исключая систематическое смещение.
t-тест / z-тест: для непрерывных метрик (средний чек, время сессии).
χ²-тест: для долевых метрик (конверсия, CTR).
CUPED (Controlled-experiment Using Pre-Experiment Data): снижение дисперсии через ковариаты для ускорения накопления статистики.

Как провести A/B-тест ML-модели

Типовой процесс: 1) Shadow mode для проверки отсутствия критических ошибок → 2) Canary 1–5% трафика → 3) Полноценный A/B-тест с накоплением статистической значимости → 4) Анализ результатов → 5) Принятие решения о full rollout или откате. Весь эксперимент логируется в системе отслеживания экспериментов (MLflow, Weights & Biases).

Связь с другими понятиями

A/B-тест модели – инструмент мониторинга модели в production. Его результаты влияют на решение о переобучении или отзыве модели. Тест связан с prediction service, который обеспечивает маршрутизацию трафика между версиями. Метрики теста включают F1-score, precision, recall и бизнес-KPI.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «A/B-тест модели».

Платформы класса «A/B-тест модели»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ABBYY InfoExtractor SDK

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...

Цена по запросу

★ 4.5

Подробнее →

ФО

Форпост

Управление городской инфраструктурой

Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...

Цена по запросу

★ 4.8

Подробнее →

Facemetric

Платформа видеоаналитики

Цена по запросу

★ 4.7

Подробнее →

Andata

Сервис идентификации потенциальных клиентов на сайте

Цена по запросу

Подробнее →

СП

Сервисная платформа транспортных приложений для модульного построения единой платформы управления транспортной системой - ЕПУТС «ТРАНСФЛОУ»

Управление городской инфраструктурой

ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...

Цена по запросу

★ 4.5

Подробнее →

ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой

ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «A/B-тест модели».

Машинное обучение ML-платформы Предиктивная аналитика

Где применяется

Отрасли, в которых «A/B-тест модели» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Торговля (оптовая и розничная)

Связь и телеком

Частые вопросы про A/B-тест модели

Сколько времени нужно проводить A/B-тест модели?

До накопления статистической значимости: обычно 1–4 недели. Время зависит от трафика, размера эффекта и уровня значимости (α = 0,05).

Что такое shadow mode в тестировании моделей?

Shadow mode – режим, при котором новая модель получает тот же трафик, что и рабочая, но её предсказания не используются. Позволяет проверить корректность без риска.

Чем Multi-Armed Bandit отличается от обычного A/B-теста?

MAB адаптивно перераспределяет трафик в пользу лучшей модели в реальном времени, снижая потери от плохой версии.

Нужно ли проводить A/B-тест после каждого переобучения?

Рекомендуется как минимум shadow-тест или canary deployment. Полный A/B-тест обязателен при значительных изменениях архитектуры или обучающих данных.

Какие метрики сравнивать в A/B-тесте ML-модели?

Бизнес-метрики (конверсия, CTR, удержание) – первичны. Технические метрики (F1, AUC-ROC) – вторичны как диагностика.

Что такое CUPED в A/B-тестировании?

Controlled-experiment Using Pre-Experiment Data – метод снижения дисперсии результатов с помощью данных до эксперимента, ускоряющий накопление значимости.

О термине

Название A/B-тест модели

Раздел Глоссарий

Категорий 3

Отраслей 4

Платформа на связи

Подберём решение по этому классу

Поможем выбрать платформу A/B-тест модели под бюджет и стек, сравним аналоги, дадим демо у вендора.

Подобрать решение Сравнить

Категории

Машинное обучение ML-платформы Предиктивная аналитика

Применение по отраслям

Цифровые услуги (B2C, e-commerce, онлайн-сервисы) Финансы и финтех Торговля (оптовая и розничная) Связь и телеком

Другие термины

Биоэквайринг SMFP (Smart MFP) Чат-бот ФГИС Исламский банкинг

Весь глоссарий

Алфавитный указатель

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

Что такое A/B-тест ML-модели

Предпосылки и история A/B-тестирования в ML

Виды A/B-тестирования моделей

Статистическая основа A/B-теста

Как провести A/B-тест ML-модели

Связь с другими понятиями

Связанные термины

Платформы класса «A/B-тест модели»

ABBYY InfoExtractor SDK

Форпост

Facemetric

Andata

Сервисная платформа транспортных приложений для модульного построения единой платформы управления транспортной системой - ЕПУТС «ТРАНСФЛОУ»

ИКАР видео волл контрол

Категории каталога

Где применяется

Частые вопросы про A/B-тест модели

Сколько времени нужно проводить A/B-тест модели?

Что такое shadow mode в тестировании моделей?

Чем Multi-Armed Bandit отличается от обычного A/B-теста?

Нужно ли проводить A/B-тест после каждого переобучения?

Какие метрики сравнивать в A/B-тесте ML-модели?

Что такое CUPED в A/B-тестировании?

Контур Безопасность

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли