Термин · Глоссарий B2B-ПО

Transformer (Transformer)

Архитектура нейронных сетей на основе механизма self-attention, предложенная Google в статье «Attention Is All You Need» (Vaswani et al., 2017). Заменила RNN в NLP и стала основой всех современных LLM (GPT, BERT, T5) и моделей компьютерного зрения (Vision Transformer).

Буква «T» В категориях: 3 Платформ: 6+

Введение

Transformer – архитектура нейронных сетей, основанная на механизме self-attention, предложенная исследователями Google в статье «Attention Is All You Need» (Vaswani et al., 2017, NeurIPS). Революционный аспект: Transformer полностью отказался от рекуррентных связей (RNN) и свёрток (CNN), заменив их параллельным вычислением весов внимания между всеми позициями последовательности. Это позволило эффективно распараллелить обучение на GPU и масштабировать модели до десятков и сотен миллиардов параметров.

Transformer стал основой для GPT, BERT, T5, LLaMA, PaLM – всех ведущих языковых моделей. Vision Transformer (ViT, 2020) распространил архитектуру на компьютерное зрение.

История и контекст

До 2017 года NLP-задачи решались преимущественно LSTM/GRU с механизмом attention (Bahdanau et al., 2015). Vaswani et al. предложили полностью заменить рекуррентность self-attention: вместо последовательной обработки – параллельный расчёт матрицы внимания Q·Kᵀ/√d_k с последующим применением к V. Это дало: параллелизируемость, отсутствие bottleneck скрытого состояния, моделирование дальних зависимостей за O(1) слоёв. Уже к 2018 году BERT (encoder-only) и GPT (decoder-only) продемонстрировали SOTA на десятках NLP-бенчмарков.

Как это работает

Оригинальный Transformer – encoder-decoder архитектура для seq2seq задач (перевод). Состоит из:

  • Multi-Head Self-Attention – вычисляет матрицу весов между всеми парами позиций через Query, Key, Value проекции. Несколько «голов» (heads) параллельно извлекают разные типы зависимостей.
  • Feed-Forward Layer – два линейных преобразования с ReLU/GELU между ними. Применяется независимо к каждой позиции.
  • Layer Normalization + Residual connections – стабилизация обучения глубоких сетей.
  • Positional Encoding – так как self-attention инвариантен к порядку, позиционная информация добавляется явно через синусоидальные или learned embeddings.

Семейства Transformer-архитектур

  • Encoder-only (BERT, RoBERTa) – для задач понимания текста (классификация, NER, QA).
  • Decoder-only (GPT, LLaMA) – авторегрессионная генерация текста.
  • Encoder-Decoder (T5, BART) – seq2seq задачи (перевод, суммаризация).

Где применяется

  • Все современные LLM – GPT-4, Claude, Gemini, GigaChat, YandexGPT основаны на Transformer.
  • Машинный перевод – DeepL, Google Translate, Yandex Translate.
  • Компьютерное зрение – Vision Transformer (ViT), DINO, SAM (Segment Anything Model).
  • Мультимодальные системы – CLIP, GPT-4V, Flamingo.
  • Распознавание речи – Whisper (OpenAI), wav2vec 2.0.

Преимущества и ограничения

Преимущества: полная параллелизируемость обучения; моделирование дальних зависимостей за O(1) слоёв; масштабируемость (scaling laws); универсальность для любых модальностей.

Ограничения: квадратичная сложность self-attention O(n²) по длине последовательности – проблема для очень длинных контекстов (решается через Sparse Attention, Flash Attention, Linear Attention); большие требования к памяти при обучении; трудозатратное предобучение требует огромных данных и вычислений.

Связь с другими понятиями

Attention-механизм – ключевой компонент Transformer. T5 – encoder-decoder Transformer от Google. LLaMA – decoder-only Transformer с открытыми весами. RNN – предшественник Transformer в NLP. CNN – Vision Transformer конкурирует с CNN в задачах компьютерного зрения. Токен (LLM) – базовая единица входной последовательности для Transformer. Генеративные модели на основе Transformer – GPT, LLaMA, Gemini.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Transformer».

Платформы класса «Transformer»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

CU

CAILA Ultimate 2.0

Данные и аналитика
CAILA Ultimate 2.0 — NLP-платформа компании Just AI для создания и эксплуатации решений в области обработки ес...
Цена по запросу
Подробнее →
G/

GigaCode / JARVIS

Данные и аналитика
GigaCode / JARVIS — AI-ассистент для разработчиков от Сбербанка. Предоставляет автодополнение кода, поддержива...
Цена по запросу
Подробнее →
GI

GigaChat

Чат-боты и виртуальные ассистенты
GigaChat от компании Сбер — российский программный продукт из реестра отечественного ПО, включённый в топ-анал...
Цена по запросу
★ 2.9
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Transformer».

Где применяется

Отрасли, в которых «Transformer» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Transformer

Что значит 'Attention Is All You Need'?

Название статьи Vaswani et al. (2017) отражает ключевую идею: для seq2seq задач достаточно механизма attention без рекуррентности (RNN) и свёрток (CNN). Это оказалось справедливым и для других задач.

Чем decoder-only отличается от encoder-decoder Transformer?

Decoder-only (GPT, LLaMA) – авторегрессионная генерация: каждый токен предсказывается на основе предыдущих. Encoder-decoder (T5, BART) – кодирует весь вход, затем генерирует выход. Последний лучше для seq2seq задач.

Почему Transformer вытеснил RNN?

Параллельное обучение (RNN последовательно), лучшее моделирование дальних зависимостей, масштабируемость. Flash Attention решила квадратичную проблему памяти для длинных контекстов.

Что такое Flash Attention?

Алгоритм (Dao et al., 2022) вычисления attention с O(n) использованием памяти GPU вместо O(n²) через IO-aware тайлинг. Ускоряет обучение Transformer в 2–4 раза.

Применяется ли Transformer для изображений?

Да. Vision Transformer (ViT) разбивает изображение на патчи и применяет Transformer. Превосходит CNN на больших датасетах. DINO, SAM основаны на ViT.