Введение
Синтетические данные – это набор искусственно сгенерированных записей, которые статистически воспроизводят свойства реальных данных, не содержа при этом информации о конкретных людях или событиях. В отличие от анонимизированных данных, синтетика порождается математической моделью, а не трансформируется из исходного датасета.
Ключевая мотивация – преодолеть барьеры доступа к реальным данным: компании не могут передавать клиентские транзакции вовне из-за 152-ФЗ или GDPR, разметка реальных данных стоит дорого, а некоторые сценарии (аварии, редкие болезни) попросту редки в природе. Синтетика решает все три проблемы одновременно.
История и контекст
Идея синтетических данных возникла в статистике 1990-х: Дональд Рубин предложил метод множественной импутации (multiple imputation, 1993) для публикации государственной статистики без раскрытия персональных данных. В 2000-х область перешла в медицину – клиники генерировали синтетические истории болезней для исследований.
Революция произошла с распространением GAN (Generative Adversarial Networks, Ian Goodfellow, 2014): впервые нейросеть научилась генерировать статистически неотличимые таблицы и изображения. Сейчас инструменты типа Mostly AI, Gretel.ai, SDV и российские решения внутри Сбера используются в продакшн-пайплайнах обучения моделей.
Как это работает
Существует несколько принципиально разных подходов к генерации:
- GAN (Generative Adversarial Networks): генератор и дискриминатор соревнуются – генератор синтезирует записи, дискриминатор учится их отличать от реальных. Результат: данные, статистически неотличимые от исходных.
- VAE (Variational Autoencoder): модель кодирует данные в латентное пространство распределений, из которого затем семплирует новые записи.
- Диффузионные модели: итеративно добавляют шум к данным и обучают обратный процесс восстановления – позволяют генерировать высококачественные табличные и мультимедийные данные.
- Rule-based подходы: описание ограничений и распределений вручную, генерация через выборку – подходит для структурированных бизнес-данных с известной логикой.
Качество синтетики оценивается двумя осями: статистическое сходство (KL-divergence, Wasserstein distance) и утилитарность – насколько модель, обученная на синтетике, работает на реальных данных.
Где применяется
- Финансы и банки: генерация синтетических транзакций для антифрод-моделей без передачи клиентских данных.
- Здравоохранение: синтетические истории болезней для обучения диагностических алгоритмов без нарушения врачебной тайны.
- Автономные транспортные средства: генерация редких опасных сценариев (аварии, плохая погода), которые невозможно накопить на реальных дорогах.
- Тестирование ПО: заполнение тестовых БД реалистичными, но ненастоящими данными пользователей.
- NLP: аугментация обучающих корпусов для малоресурсных языков и узкоспециализированных доменов.
Преимущества и ограничения
Преимущества: соответствие требованиям конфиденциальности (152-ФЗ, GDPR); неограниченный объём данных; возможность балансировки классов (oversampling редких событий); воспроизводимость экспериментов; снижение затрат на разметку.
Ограничения: синтетика не воспроизводит все нюансы реального мира; риск артефактов генератора, попадающих в модель; регуляторы не всегда признают синтетику эквивалентом реальных данных; оценка качества требует экспертизы.
Связь с другими понятиями
Синтетические данные тесно связаны с MLOps – пайплайнами управления данными и моделями, где синтетика используется на этапе Data Augmentation. Объяснимый ИИ (XAI) часто опирается на синтетические примеры counterfactual'ов для объяснения предсказаний. Feature Store и Data Lake служат инфраструктурой хранения. Дрейф данных (data drift) проверяется сравнением синтетического контрольного набора с продакшн-данными.