Термин · Глоссарий B2B-ПО

Синтетические данные

Синтетические данные – искусственно сгенерированные наборы данных, статистически схожие с реальными. Используются для обучения и тестирования ML-моделей в условиях нехватки реальных данных, ограничений конфиденциальности (152-ФЗ, GDPR) или необходимости балансировки классов.

Буква «С» В категориях: 3 Платформ: 6+

Введение

Синтетические данные – это набор искусственно сгенерированных записей, которые статистически воспроизводят свойства реальных данных, не содержа при этом информации о конкретных людях или событиях. В отличие от анонимизированных данных, синтетика порождается математической моделью, а не трансформируется из исходного датасета.

Ключевая мотивация – преодолеть барьеры доступа к реальным данным: компании не могут передавать клиентские транзакции вовне из-за 152-ФЗ или GDPR, разметка реальных данных стоит дорого, а некоторые сценарии (аварии, редкие болезни) попросту редки в природе. Синтетика решает все три проблемы одновременно.

История и контекст

Идея синтетических данных возникла в статистике 1990-х: Дональд Рубин предложил метод множественной импутации (multiple imputation, 1993) для публикации государственной статистики без раскрытия персональных данных. В 2000-х область перешла в медицину – клиники генерировали синтетические истории болезней для исследований.

Революция произошла с распространением GAN (Generative Adversarial Networks, Ian Goodfellow, 2014): впервые нейросеть научилась генерировать статистически неотличимые таблицы и изображения. Сейчас инструменты типа Mostly AI, Gretel.ai, SDV и российские решения внутри Сбера используются в продакшн-пайплайнах обучения моделей.

Как это работает

Существует несколько принципиально разных подходов к генерации:

  • GAN (Generative Adversarial Networks): генератор и дискриминатор соревнуются – генератор синтезирует записи, дискриминатор учится их отличать от реальных. Результат: данные, статистически неотличимые от исходных.
  • VAE (Variational Autoencoder): модель кодирует данные в латентное пространство распределений, из которого затем семплирует новые записи.
  • Диффузионные модели: итеративно добавляют шум к данным и обучают обратный процесс восстановления – позволяют генерировать высококачественные табличные и мультимедийные данные.
  • Rule-based подходы: описание ограничений и распределений вручную, генерация через выборку – подходит для структурированных бизнес-данных с известной логикой.

Качество синтетики оценивается двумя осями: статистическое сходство (KL-divergence, Wasserstein distance) и утилитарность – насколько модель, обученная на синтетике, работает на реальных данных.

Где применяется

  • Финансы и банки: генерация синтетических транзакций для антифрод-моделей без передачи клиентских данных.
  • Здравоохранение: синтетические истории болезней для обучения диагностических алгоритмов без нарушения врачебной тайны.
  • Автономные транспортные средства: генерация редких опасных сценариев (аварии, плохая погода), которые невозможно накопить на реальных дорогах.
  • Тестирование ПО: заполнение тестовых БД реалистичными, но ненастоящими данными пользователей.
  • NLP: аугментация обучающих корпусов для малоресурсных языков и узкоспециализированных доменов.

Преимущества и ограничения

Преимущества: соответствие требованиям конфиденциальности (152-ФЗ, GDPR); неограниченный объём данных; возможность балансировки классов (oversampling редких событий); воспроизводимость экспериментов; снижение затрат на разметку.

Ограничения: синтетика не воспроизводит все нюансы реального мира; риск артефактов генератора, попадающих в модель; регуляторы не всегда признают синтетику эквивалентом реальных данных; оценка качества требует экспертизы.

Связь с другими понятиями

Синтетические данные тесно связаны с MLOps – пайплайнами управления данными и моделями, где синтетика используется на этапе Data Augmentation. Объяснимый ИИ (XAI) часто опирается на синтетические примеры counterfactual'ов для объяснения предсказаний. Feature Store и Data Lake служат инфраструктурой хранения. Дрейф данных (data drift) проверяется сравнением синтетического контрольного набора с продакшн-данными.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Синтетические данные».

Платформы класса «Синтетические данные»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...
Цена по запросу
★ 4.5
Подробнее →
ФО

Форпост

Управление городской инфраструктурой
Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...
Цена по запросу
★ 4.8
Подробнее →
Сервис идентификации потенциальных клиентов на сайте
Цена по запросу
Подробнее →
ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...
Цена по запросу
★ 4.5
Подробнее →
ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой
ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Синтетические данные».

Где применяется

Отрасли, в которых «Синтетические данные» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Синтетические данные

Чем синтетические данные отличаются от анонимизированных?

Анонимизированные данные – реальные данные с удалёнными идентификаторами. Синтетические данные полностью сгенерированы моделью и не связаны с конкретными реальными событиями или людьми.

Соответствуют ли синтетические данные требованиям 152-ФЗ?

Как правило, да: если синтетика не позволяет обратно восстановить персональные данные, она не является персональными данными. Юридическая позиция уточняется по конкретным случаям.

Как оценить качество синтетических данных?

Используют метрики сходства распределений (KL-divergence, Wasserstein) и downstream-метрики: качество ML-модели, обученной на синтетике и проверенной на реальных данных.

Какие инструменты используются для генерации?

Mostly AI, Gretel.ai, SDV (Synthetic Data Vault), CTGAN, TabDDPM (диффузионная модель для таблиц). В open-source – библиотеки на основе PyTorch с поддержкой VAE и GAN.

Применяются ли синтетические данные в российских компаниях?

Да: Сбер, Тинькофф, страховые компании и медицинские организации используют синтетику для преодоления ограничений 152-ФЗ и обучения антифрод-моделей.

Можно ли полностью заменить реальные данные синтетическими?

Нет. Оптимальная практика – комбинировать небольшой объём реальных данных (для валидации качества синтетики) с большим объёмом синтетических данных для обучения.