Термин · Глоссарий B2B-ПО

Аугментация данных

Техники искусственного увеличения объёма обучающего датасета через трансформации исходных примеров без изменения смысловой метки. Для изображений – поворот, отражение, обрезка, изменение яркости; для текста – перефразирование, замена синонимами, обратный перевод.

Буква «А» В категориях: 3 Платформ: 6+

Введение

Аугментация данных (Data Augmentation) – набор техник для искусственного расширения обучающего датасета путём создания модифицированных версий существующих примеров. Модификации применяются таким образом, чтобы не изменить целевую метку: повёрнутый на 15° снимок кошки по-прежнему является кошкой. Аугментация снижает переобучение, повышает устойчивость модели к вариациям входных данных и позволяет достигать лучшего качества при ограниченных обучающих выборках.

История и контекст

Аугментация изображений применялась в компьютерном зрении с 1990-х годов, но систематизирована была с приходом глубокого обучения. AlexNet (2012) активно использовал случайное обрезание и горизонтальное отражение. ImageNet-победители последовательно усиливали аугментацию: Inception, ResNet, EfficientNet. AutoAugment (Google, 2018) ввёл автоматический поиск оптимальной политики аугментации. RandAugment (2020) упростил пространство поиска. Для NLP аугментация долго была нетривиальной задачей; прорыв произошёл с развитием LLM, позволяющих легко перефразировать тексты.

Как это работает

Техники аугментации по модальностям:

Для изображений

  • Геометрические: поворот, горизонтальное/вертикальное отражение, обрезка (crop), масштабирование, сдвиг.
  • Цветовые: изменение яркости, контраста, насыщенности, оттенка, добавление шума, Gaussian blur.
  • Продвинутые: Cutout/Random Erasing (удаление случайных прямоугольников), MixUp (линейная интерполяция двух изображений), CutMix.

Для текста

  • Синонимическая замена – случайная замена слов на синонимы из WordNet/тезауруса.
  • Обратный перевод (back-translation) – перевод на другой язык и обратно.
  • Вставка, удаление, перестановка слов – случайные изменения без потери смысла.
  • LLM-перефразирование – генерация семантических эквивалентов через GPT-4, Claude и др.

Для аудио

  • Добавление фонового шума, изменение скорости воспроизведения, сдвиг питча, SpecAugment (маскирование частот/времён).

Где применяется

  • Компьютерное зрение – стандартная практика для ImageNet-scale задач; critical для медицинских изображений с малыми выборками.
  • NLP – аугментация для классификации текста, NER, задач с малой разметкой.
  • Распознавание речи – SpecAugment стал стандартом для ASR-систем.
  • Semi-supervised learning – consistency regularization требует различных аугментаций одного примера.
  • Робастность к adversarial атакам – аугментация с adversarial perturbations повышает устойчивость модели.

Преимущества и ограничения

Преимущества: снижает переобучение; повышает robustness; увеличивает эффективный размер датасета; бесплатно (не требует дополнительной разметки); улучшает качество на тестовых данных со схожими вариациями.

Ограничения: неправильная аугментация может ввести в заблуждение (вертикальное отражение текста на изображении меняет смысл); увеличивает время обучения; для некоторых доменов (медицина) требует экспертной валидации допустимых трансформаций.

Связь с другими понятиями

Аугментация данных – один из методов борьбы с Overfitting (переобучением). Регуляризация (Dropout, L1/L2) – другой подход к той же проблеме. Semi-supervised Learning использует аугментацию как основу consistency regularization. GAN – метод генерации синтетических данных как более мощная альтернатива классической аугментации. Датасет – исходный объект, к которому применяется аугментация.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Аугментация данных».

Платформы класса «Аугментация данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...
Цена по запросу
★ 4.5
Подробнее →
ФО

Форпост

Управление городской инфраструктурой
Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...
Цена по запросу
★ 4.8
Подробнее →
Сервис идентификации потенциальных клиентов на сайте
Цена по запросу
Подробнее →
ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...
Цена по запросу
★ 4.5
Подробнее →
ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой
ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Аугментация данных».

Где применяется

Отрасли, в которых «Аугментация данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Аугментация данных

Отличается ли аугментация от синтетической генерации данных?

Аугментация – трансформация существующих примеров с сохранением метки. Синтетическая генерация (GAN, LLM) – создание полностью новых примеров. Граница условна: LLM-перефразирование – уже синтетика.

Что такое MixUp?

Техника аугментации: новый пример = линейная интерполяция двух исходных изображений (и их меток). Обеспечивает регуляризацию и улучшает calibration модели. Предложена в статье Zhang et al. (2018).

Как аугментировать текст без потери смысла?

Синонимическая замена, обратный перевод, LLM-перефразирование. Вставка/удаление слов работает хуже. Важно проверять, что аугментированный пример сохраняет оригинальную метку.

Что такое AutoAugment?

Метод Google (Cubuk et al., 2018): автоматический поиск оптимальной политики аугментации через reinforcement learning. RandAugment (2020) упростил его, случайно выбирая из фиксированного набора трансформаций с заданной силой.

Нужна ли аугментация при предобучении LLM?

При предобучении на терабайтах текста аугментация менее актуальна – данных достаточно. Актуальна при fine-tuning на малых размеченных выборках для повышения устойчивости.