Термин · Глоссарий B2B-ПО

Аугментация данных

Техники искусственного увеличения объёма обучающего датасета через трансформации исходных примеров без изменения смысловой метки. Для изображений – поворот, отражение, обрезка, изменение яркости; для текста – перефразирование, замена синонимами, обратный перевод.

Буква «А» В категориях: 3 Платформ: 6+

Введение

Аугментация данных (Data Augmentation) – набор техник для искусственного расширения обучающего датасета путём создания модифицированных версий существующих примеров. Модификации применяются таким образом, чтобы не изменить целевую метку: повёрнутый на 15° снимок кошки по-прежнему является кошкой. Аугментация снижает переобучение, повышает устойчивость модели к вариациям входных данных и позволяет достигать лучшего качества при ограниченных обучающих выборках.

История и контекст

Аугментация изображений применялась в компьютерном зрении с 1990-х годов, но систематизирована была с приходом глубокого обучения. AlexNet (2012) активно использовал случайное обрезание и горизонтальное отражение. ImageNet-победители последовательно усиливали аугментацию: Inception, ResNet, EfficientNet. AutoAugment (Google, 2018) ввёл автоматический поиск оптимальной политики аугментации. RandAugment (2020) упростил пространство поиска. Для NLP аугментация долго была нетривиальной задачей; прорыв произошёл с развитием LLM, позволяющих легко перефразировать тексты.

Как это работает

Техники аугментации по модальностям:

Для изображений

Геометрические: поворот, горизонтальное/вертикальное отражение, обрезка (crop), масштабирование, сдвиг.
Цветовые: изменение яркости, контраста, насыщенности, оттенка, добавление шума, Gaussian blur.
Продвинутые: Cutout/Random Erasing (удаление случайных прямоугольников), MixUp (линейная интерполяция двух изображений), CutMix.

Для текста

Синонимическая замена – случайная замена слов на синонимы из WordNet/тезауруса.
Обратный перевод (back-translation) – перевод на другой язык и обратно.
Вставка, удаление, перестановка слов – случайные изменения без потери смысла.
LLM-перефразирование – генерация семантических эквивалентов через GPT-4, Claude и др.

Для аудио

Добавление фонового шума, изменение скорости воспроизведения, сдвиг питча, SpecAugment (маскирование частот/времён).

Где применяется

Компьютерное зрение – стандартная практика для ImageNet-scale задач; critical для медицинских изображений с малыми выборками.
NLP – аугментация для классификации текста, NER, задач с малой разметкой.
Распознавание речи – SpecAugment стал стандартом для ASR-систем.
Semi-supervised learning – consistency regularization требует различных аугментаций одного примера.
Робастность к adversarial атакам – аугментация с adversarial perturbations повышает устойчивость модели.

Преимущества и ограничения

Преимущества: снижает переобучение; повышает robustness; увеличивает эффективный размер датасета; бесплатно (не требует дополнительной разметки); улучшает качество на тестовых данных со схожими вариациями.

Ограничения: неправильная аугментация может ввести в заблуждение (вертикальное отражение текста на изображении меняет смысл); увеличивает время обучения; для некоторых доменов (медицина) требует экспертной валидации допустимых трансформаций.

Связь с другими понятиями

Аугментация данных – один из методов борьбы с Overfitting (переобучением). Регуляризация (Dropout, L1/L2) – другой подход к той же проблеме. Semi-supervised Learning использует аугментацию как основу consistency regularization. GAN – метод генерации синтетических данных как более мощная альтернатива классической аугментации. Датасет – исходный объект, к которому применяется аугментация.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Аугментация данных».

Платформы класса «Аугментация данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ABBYY InfoExtractor SDK

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...

Цена по запросу

★ 4.5

Подробнее →

ФО

Форпост

Управление городской инфраструктурой

Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...

Цена по запросу

★ 4.8

Подробнее →

Facemetric

Платформа видеоаналитики

Цена по запросу

★ 4.7

Подробнее →

Andata

Сервис идентификации потенциальных клиентов на сайте

Цена по запросу

Подробнее →

СП

Сервисная платформа транспортных приложений для модульного построения единой платформы управления транспортной системой - ЕПУТС «ТРАНСФЛОУ»

Управление городской инфраструктурой

ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...

Цена по запросу

★ 4.5

Подробнее →

ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой

ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Аугментация данных».

Машинное обучение Платформы ИИ/GenAI Обработка естественного языка (NLP/NLU)

Где применяется

Отрасли, в которых «Аугментация данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Промышленность и производство

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Здравоохранение и медицина

Частые вопросы про Аугментация данных

Отличается ли аугментация от синтетической генерации данных?

Аугментация – трансформация существующих примеров с сохранением метки. Синтетическая генерация (GAN, LLM) – создание полностью новых примеров. Граница условна: LLM-перефразирование – уже синтетика.

Что такое MixUp?

Техника аугментации: новый пример = линейная интерполяция двух исходных изображений (и их меток). Обеспечивает регуляризацию и улучшает calibration модели. Предложена в статье Zhang et al. (2018).

Как аугментировать текст без потери смысла?

Синонимическая замена, обратный перевод, LLM-перефразирование. Вставка/удаление слов работает хуже. Важно проверять, что аугментированный пример сохраняет оригинальную метку.

Что такое AutoAugment?

Метод Google (Cubuk et al., 2018): автоматический поиск оптимальной политики аугментации через reinforcement learning. RandAugment (2020) упростил его, случайно выбирая из фиксированного набора трансформаций с заданной силой.

Нужна ли аугментация при предобучении LLM?

При предобучении на терабайтах текста аугментация менее актуальна – данных достаточно. Актуальна при fine-tuning на малых размеченных выборках для повышения устойчивости.

Введение

История и контекст

Как это работает

Для изображений

Для текста

Для аудио

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Аугментация данных»

ABBYY InfoExtractor SDK

Форпост

Facemetric

Andata

Сервисная платформа транспортных приложений для модульного построения единой платформы управления транспортной системой - ЕПУТС «ТРАНСФЛОУ»

ИКАР видео волл контрол

Категории каталога

Где применяется

Частые вопросы про Аугментация данных

Отличается ли аугментация от синтетической генерации данных?

Что такое MixUp?

Как аугментировать текст без потери смысла?

Что такое AutoAugment?

Нужна ли аугментация при предобучении LLM?

Контур Доверенность

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли