Введение
Semi-supervised Learning (полуконтролируемое обучение) – парадигма машинного обучения, занимающая промежуточное положение между supervised learning (весь датасет размечен) и unsupervised learning (разметки нет). Модель обучается на небольшой размеченной выборке и большом массиве неразмеченных данных одновременно, извлекая информацию о структуре данных из неразмеченных примеров для улучшения качества классификации.
Это особенно ценно, когда ручная разметка дорогостояща или требует экспертизы (медицинские изображения, юридические документы, NER на специализированных корпусах).
История и контекст
Теоретические основы semi-supervised learning были заложены в 1970–80-х годах. Практическое применение началось в 1990-х с EM-алгоритмом для наивного байесовского классификатора (Nigam et al., 2000 – «Text Classification from Labeled and Unlabeled Documents»). Взрывной рост интереса произошёл с развитием deep learning: FixMatch (2020), SimCLR, MoCo, DINO (self-supervised). Предобучение LLM на огромных неразмеченных корпусах с последующим fine-tuning на малой разметке – фактически semi-supervised парадигма в масштабе.
Как это работает
Основные подходы:
- Self-training (pseudo-labeling) – модель, обученная на размеченных данных, генерирует псевдометки для неразмеченных примеров с высокой уверенностью. Затем переобучается на расширенном датасете. Итеративно повторяется.
- Consistency regularization – модель должна давать одинаковые предсказания для аугментированных версий одного примера (MixMatch, FixMatch, UDA). Применяется к неразмеченным данным.
- Graph-based methods – строится граф схожести данных, метки «распространяются» по рёбрам от размеченных узлов к неразмеченным (label propagation).
- Contrastive learning – модель обучается сближать похожие примеры и разделять непохожие в пространстве представлений, используя неразмеченные данные.
Где применяется
- Медицинская визуализация – разметка КТ/МРТ требует радиолога; semi-supervised позволяет обучиться на малой размеченной выборке.
- NLP-задачи – предобучение BERT на неразмеченном тексте + fine-tuning на малой разметке.
- Детектирование объектов – дешёвые неаннотированные изображения + дорогие аннотированные боксы.
- Распознавание речи – огромные корпуса неразмеченного аудио + небольшие транскрибированные датасеты.
- Промышленный контроль качества – редкие случаи брака сложно размечать; большинство примеров – норма.
Преимущества и ограничения
Преимущества: снижает потребность в дорогостоящей разметке; использует весь доступный объём данных; значительно улучшает качество при малых размеченных выборках.
Ограничения: pseudo-labeling может распространять ошибки при низкой начальной точности; требует тщательной настройки порога уверенности; при шуме в данных качество может ухудшиться по сравнению с supervised baseline.
Связь с другими понятиями
Semi-supervised Learning – средний путь между supervised (Разметка данных для всего датасета) и unsupervised learning. Аугментация данных – ключевой компонент consistency regularization подходов. Предобучение LLM на неразмеченных корпусах – масштабный вариант semi-supervised, основа Transformer и BERT-подобных архитектур. Дрейф данных особенно критичен: pseudo-labels могут усилить drift. Evaluation (МО) в semi-supervised требует строго выделенной размеченной тестовой выборки.