Термин · Глоссарий B2B-ПО

Zero-shot (Zero-shot)

Способность языковой модели решать задачу по текстовому описанию без каких-либо примеров в запросе. Модель опирается исключительно на знания, накопленные при предобучении на широких корпусах. Zero-shot – наиболее экономичный режим применения LLM: не тратит токены на примеры.

Буква «Z» В категориях: 3 Платформ: 6+

Введение

Zero-shot (нулевой выстрел) – режим работы языковой модели, при котором задача формулируется исключительно текстовым описанием, без единого демонстрационного примера. Модель решает её, опираясь на обобщённые знания, усвоенные в ходе предобучения на огромных корпусах текста, и на способность следовать инструкциям (instruction following), привитую через RLHF-обучение.

В рамках статьи GPT-3 (Brown et al., 2020) авторы систематически разграничили три режима: zero-shot (только инструкция), one-shot (один пример), few-shot (несколько примеров). На большинстве задач GPT-3 175B уже в zero-shot режиме опережал более ранние SOTA fine-tuned модели – это стало одним из наиболее ярких результатов работы.

История и контекст

Термин «zero-shot learning» пришёл из компьютерного зрения (2009–2013): исследователи разрабатывали методы распознавания классов объектов, которые модель не видела при обучении, используя семантические описания атрибутов. В контексте LLM он приобрёл принципиально иное значение. Поворотным моментом стало появление InstructGPT (2022) и ChatGPT – моделей, обученных следовать инструкциям через RLHF, что резко повысило качество zero-shot на широком спектре задач. Zero-shot CoT (Kojima et al., 2022) показал: достаточно добавить «Let's think step by step» – и модель сама строит цепочку рассуждений.

Как это работает

В zero-shot промпте содержится только описание задачи – без пар «вход-выход». Модель интерпретирует запрос, опираясь на статистику языка из предобучения. Для улучшения zero-shot качества применяются следующие приёмы:

  • Точная формулировка – конкретный глагол («классифицируй», «переведи», «суммаризируй») лучше расплывчатых описаний.
  • Ролевые инструкции – «Ты опытный юрист. Определи тип договора...» повышает специфичность ответа.
  • Ограничение формата – «Отвечай только: Положительный / Отрицательный» устраняет лишний текст.
  • Zero-shot Chain-of-Thought – добавление «Думай пошагово» активирует цепочку рассуждений без примеров.

Граница zero-shot и few-shot

Граница условна: даже одно предложение контекста формально превращает zero-shot в 0.5-shot. Практически zero-shot – это когда в промпте нет явных пар «вход → выход», демонстрирующих паттерн ответа.

Где применяется

  • Классификация текста – тональный анализ, категоризация без предварительной разметки датасета.
  • Суммаризация – краткое изложение документов, новостей, протоколов совещаний.
  • Вопросно-ответные системы – ответы на пользовательские запросы по корпоративной базе знаний.
  • Перевод – между языками без специальной адаптации к паре.
  • Извлечение данных – парсинг структурированных данных из свободного текста по описанию схемы.
  • Чат-боты и ассистенты – ответы на произвольные запросы пользователей без настройки под каждую тему.

Преимущества и ограничения

Преимущества: мгновенное применение без подготовки примеров; максимально экономный расход токенов; универсальность – подходит для любых задач, описуемых на естественном языке; нет затрат на сбор и разметку демонстрационных данных.

Ограничения: уступает few-shot при нечёткой задаче или нестандартном формате вывода; эффективность критически зависит от качества instruction following модели; малые модели (7B и ниже) плохо справляются со сложными zero-shot задачами; повышенный риск галлюцинаций – без якорных примеров модель больше домысливает.

Связь с другими понятиями

Zero-shot противопоставляется few-shot (с примерами в промпте) и fine-tuning (с обновлением весов). Оба режима – частные случаи в-контекстного обучения. Chain-of-Thought применяется в zero-shot через одну фразу-инструкцию. Перплексия – базовая метрика языковой компетентности модели, которая определяет zero-shot качество: чем ниже перплексия на домене задачи, тем надёжнее zero-shot. Hallucination – основной риск: без примеров модель имеет меньше контекстных ограничителей и чаще домысливает факты.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Zero-shot».

Платформы класса «Zero-shot»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

CU

CAILA Ultimate 2.0

Данные и аналитика
CAILA Ultimate 2.0 — NLP-платформа компании Just AI для создания и эксплуатации решений в области обработки ес...
Цена по запросу
Подробнее →
G/

GigaCode / JARVIS

Данные и аналитика
GigaCode / JARVIS — AI-ассистент для разработчиков от Сбербанка. Предоставляет автодополнение кода, поддержива...
Цена по запросу
Подробнее →
GI

GigaChat

Чат-боты и виртуальные ассистенты
GigaChat от компании Сбер — российский программный продукт из реестра отечественного ПО, включённый в топ-анал...
Цена по запросу
★ 2.9
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Zero-shot».

Где применяется

Отрасли, в которых «Zero-shot» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Zero-shot

Когда выбрать zero-shot вместо few-shot?

Когда задача описывается ясной инструкцией и нет готовых примеров или ограничено контекстное окно. Few-shot нужен при нестандартном формате вывода или неоднозначной постановке.

Влияет ли размер модели на zero-shot?

Критически. Крупные модели (70B+) значительно превосходят малые (7B) в zero-shot на сложных задачах. Instruction following появляется при определённом масштабе.

Что такое zero-shot Chain-of-Thought?

Добавление к zero-shot запросу фразы «Думай пошагово». Простая техника (Kojima et al., 2022), значительно улучшающая результат на математических и логических задачах без примеров.

Поддерживают ли российские LLM zero-shot на русском?

Да. GigaChat, YandexGPT, Mistral-Russian и другие русскоязычные модели обучены следовать инструкциям на русском языке.

Как измерить качество zero-shot?

Через downstream-метрики на целевых задачах: Accuracy, F1, BLEU/ROUGE для генерации. Обязательно сравнивать с few-shot baseline.