Термин · Глоссарий B2B-ПО

Semi-supervised Learning (Semi-supervised Learning)

Тип машинного обучения, использующий небольшое количество размеченных примеров совместно с большим объёмом неразмеченных данных. Позволяет достичь высокого качества модели в условиях дорогостоящей ручной разметки, применяя self-training, pseudo-labeling или contrastive learning.

Буква «S» В категориях: 3 Платформ: 6+

Введение

Semi-supervised Learning (полуконтролируемое обучение) – парадигма машинного обучения, занимающая промежуточное положение между supervised learning (весь датасет размечен) и unsupervised learning (разметки нет). Модель обучается на небольшой размеченной выборке и большом массиве неразмеченных данных одновременно, извлекая информацию о структуре данных из неразмеченных примеров для улучшения качества классификации.

Это особенно ценно, когда ручная разметка дорогостояща или требует экспертизы (медицинские изображения, юридические документы, NER на специализированных корпусах).

История и контекст

Теоретические основы semi-supervised learning были заложены в 1970–80-х годах. Практическое применение началось в 1990-х с EM-алгоритмом для наивного байесовского классификатора (Nigam et al., 2000 – «Text Classification from Labeled and Unlabeled Documents»). Взрывной рост интереса произошёл с развитием deep learning: FixMatch (2020), SimCLR, MoCo, DINO (self-supervised). Предобучение LLM на огромных неразмеченных корпусах с последующим fine-tuning на малой разметке – фактически semi-supervised парадигма в масштабе.

Как это работает

Основные подходы:

  • Self-training (pseudo-labeling) – модель, обученная на размеченных данных, генерирует псевдометки для неразмеченных примеров с высокой уверенностью. Затем переобучается на расширенном датасете. Итеративно повторяется.
  • Consistency regularization – модель должна давать одинаковые предсказания для аугментированных версий одного примера (MixMatch, FixMatch, UDA). Применяется к неразмеченным данным.
  • Graph-based methods – строится граф схожести данных, метки «распространяются» по рёбрам от размеченных узлов к неразмеченным (label propagation).
  • Contrastive learning – модель обучается сближать похожие примеры и разделять непохожие в пространстве представлений, используя неразмеченные данные.

Где применяется

  • Медицинская визуализация – разметка КТ/МРТ требует радиолога; semi-supervised позволяет обучиться на малой размеченной выборке.
  • NLP-задачи – предобучение BERT на неразмеченном тексте + fine-tuning на малой разметке.
  • Детектирование объектов – дешёвые неаннотированные изображения + дорогие аннотированные боксы.
  • Распознавание речи – огромные корпуса неразмеченного аудио + небольшие транскрибированные датасеты.
  • Промышленный контроль качества – редкие случаи брака сложно размечать; большинство примеров – норма.

Преимущества и ограничения

Преимущества: снижает потребность в дорогостоящей разметке; использует весь доступный объём данных; значительно улучшает качество при малых размеченных выборках.

Ограничения: pseudo-labeling может распространять ошибки при низкой начальной точности; требует тщательной настройки порога уверенности; при шуме в данных качество может ухудшиться по сравнению с supervised baseline.

Связь с другими понятиями

Semi-supervised Learning – средний путь между supervised (Разметка данных для всего датасета) и unsupervised learning. Аугментация данных – ключевой компонент consistency regularization подходов. Предобучение LLM на неразмеченных корпусах – масштабный вариант semi-supervised, основа Transformer и BERT-подобных архитектур. Дрейф данных особенно критичен: pseudo-labels могут усилить drift. Evaluation (МО) в semi-supervised требует строго выделенной размеченной тестовой выборки.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Semi-supervised Learning».

Платформы класса «Semi-supervised Learning»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Уникальные возможности ABBYY InfoExtractor SDK по выявлению в текстах объектов, фактов и связей между ними поз...
Цена по запросу
★ 4.5
Подробнее →
ФО

Форпост

Управление городской инфраструктурой
Форпост — программная платформа для построения масштабируемых систем видеонаблюдения и видеоаналитики на нейро...
Цена по запросу
★ 4.8
Подробнее →
Сервис идентификации потенциальных клиентов на сайте
Цена по запросу
Подробнее →
ТРАНСФЛОУ — модульная интеграционная платформа для построения интеллектуальных транспортных систем (ИТС). Разр...
Цена по запросу
★ 4.5
Подробнее →
ИВ

ИКАР видео волл контрол

Управление городской инфраструктурой
ИКАР видео волл контрол — программное обеспечение компании (ИНН 7838404170) для управления видеостенами (video...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Semi-supervised Learning».

Где применяется

Отрасли, в которых «Semi-supervised Learning» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Semi-supervised Learning

Что такое pseudo-labeling?

Метод semi-supervised: модель присваивает метки неразмеченным примерам с высокой уверенностью (порог, например 0.95) и включает их в обучение как размеченные. Итеративно улучшает модель.

Чем semi-supervised отличается от self-supervised?

Semi-supervised использует небольшую размеченную выборку + неразмеченные данные. Self-supervised не использует ручных меток вовсе: задача обучения формируется из структуры данных (предсказание следующего слова, контрастивное обучение).

Когда выгоден semi-supervised подход?

Когда разметка дорога (медицина, право), а неразмеченных данных много. Если размеченных > 10 000 примеров и они репрезентативны, supervised часто достаточен.

Что такое FixMatch?

Популярный semi-supervised метод (Sohn et al., 2020): consistency regularization с pseudo-labels и сильными/слабыми аугментациями. Достигает высокого качества на CIFAR-10 с 40 размеченными примерами.

Применяется ли semi-supervised в LLM?

Де-факто вся парадигма предобучения LLM (GPT, BERT) – это semi-supervised: предобучение на неразмеченном тексте, fine-tuning на малой размеченной выборке конкретной задачи.