Термин · Глоссарий B2B-ПО

Transformer (Transformer)

Архитектура нейронных сетей на основе механизма self-attention, предложенная Google в статье «Attention Is All You Need» (Vaswani et al., 2017). Заменила RNN в NLP и стала основой всех современных LLM (GPT, BERT, T5) и моделей компьютерного зрения (Vision Transformer).

Буква «T» В категориях: 3 Платформ: 6+

Введение

Transformer – архитектура нейронных сетей, основанная на механизме self-attention, предложенная исследователями Google в статье «Attention Is All You Need» (Vaswani et al., 2017, NeurIPS). Революционный аспект: Transformer полностью отказался от рекуррентных связей (RNN) и свёрток (CNN), заменив их параллельным вычислением весов внимания между всеми позициями последовательности. Это позволило эффективно распараллелить обучение на GPU и масштабировать модели до десятков и сотен миллиардов параметров.

Transformer стал основой для GPT, BERT, T5, LLaMA, PaLM – всех ведущих языковых моделей. Vision Transformer (ViT, 2020) распространил архитектуру на компьютерное зрение.

История и контекст

До 2017 года NLP-задачи решались преимущественно LSTM/GRU с механизмом attention (Bahdanau et al., 2015). Vaswani et al. предложили полностью заменить рекуррентность self-attention: вместо последовательной обработки – параллельный расчёт матрицы внимания Q·Kᵀ/√d_k с последующим применением к V. Это дало: параллелизируемость, отсутствие bottleneck скрытого состояния, моделирование дальних зависимостей за O(1) слоёв. Уже к 2018 году BERT (encoder-only) и GPT (decoder-only) продемонстрировали SOTA на десятках NLP-бенчмарков.

Как это работает

Оригинальный Transformer – encoder-decoder архитектура для seq2seq задач (перевод). Состоит из:

Multi-Head Self-Attention – вычисляет матрицу весов между всеми парами позиций через Query, Key, Value проекции. Несколько «голов» (heads) параллельно извлекают разные типы зависимостей.
Feed-Forward Layer – два линейных преобразования с ReLU/GELU между ними. Применяется независимо к каждой позиции.
Layer Normalization + Residual connections – стабилизация обучения глубоких сетей.
Positional Encoding – так как self-attention инвариантен к порядку, позиционная информация добавляется явно через синусоидальные или learned embeddings.

Семейства Transformer-архитектур

Encoder-only (BERT, RoBERTa) – для задач понимания текста (классификация, NER, QA).
Decoder-only (GPT, LLaMA) – авторегрессионная генерация текста.
Encoder-Decoder (T5, BART) – seq2seq задачи (перевод, суммаризация).

Где применяется

Все современные LLM – GPT-4, Claude, Gemini, GigaChat, YandexGPT основаны на Transformer.
Машинный перевод – DeepL, Google Translate, Yandex Translate.
Компьютерное зрение – Vision Transformer (ViT), DINO, SAM (Segment Anything Model).
Мультимодальные системы – CLIP, GPT-4V, Flamingo.
Распознавание речи – Whisper (OpenAI), wav2vec 2.0.

Преимущества и ограничения

Преимущества: полная параллелизируемость обучения; моделирование дальних зависимостей за O(1) слоёв; масштабируемость (scaling laws); универсальность для любых модальностей.

Ограничения: квадратичная сложность self-attention O(n²) по длине последовательности – проблема для очень длинных контекстов (решается через Sparse Attention, Flash Attention, Linear Attention); большие требования к памяти при обучении; трудозатратное предобучение требует огромных данных и вычислений.

Связь с другими понятиями

Attention-механизм – ключевой компонент Transformer. T5 – encoder-decoder Transformer от Google. LLaMA – decoder-only Transformer с открытыми весами. RNN – предшественник Transformer в NLP. CNN – Vision Transformer конкурирует с CNN в задачах компьютерного зрения. Токен (LLM) – базовая единица входной последовательности для Transformer. Генеративные модели на основе Transformer – GPT, LLaMA, Gemini.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Transformer».

Платформы класса «Transformer»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ИС

Интеллектуальная семантическая поисковая система по базе корпоративной документации «Минч ИИ»

Цена по запросу

Подробнее →

CAILA Ultimate 2.0

Данные и аналитика

CAILA Ultimate 2.0 — NLP-платформа компании Just AI для создания и эксплуатации решений в области обработки ес...

Цена по запросу

Подробнее →

GigaCode / JARVIS

Данные и аналитика

GigaCode / JARVIS — AI-ассистент для разработчиков от Сбербанка. Предоставляет автодополнение кода, поддержива...

Цена по запросу

Подробнее →

GigaChat

Чат-боты и виртуальные ассистенты

GigaChat от компании Сбер — российский программный продукт из реестра отечественного ПО, включённый в топ-анал...

Цена по запросу

★ 2.9

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Transformer».

Машинное обучение Платформы ИИ/GenAI Большие языковые модели (LLM)

Где применяется

Отрасли, в которых «Transformer» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Образование и наука

Здравоохранение и медицина

Частые вопросы про Transformer

Что значит 'Attention Is All You Need'?

Название статьи Vaswani et al. (2017) отражает ключевую идею: для seq2seq задач достаточно механизма attention без рекуррентности (RNN) и свёрток (CNN). Это оказалось справедливым и для других задач.

Чем decoder-only отличается от encoder-decoder Transformer?

Decoder-only (GPT, LLaMA) – авторегрессионная генерация: каждый токен предсказывается на основе предыдущих. Encoder-decoder (T5, BART) – кодирует весь вход, затем генерирует выход. Последний лучше для seq2seq задач.

Почему Transformer вытеснил RNN?

Параллельное обучение (RNN последовательно), лучшее моделирование дальних зависимостей, масштабируемость. Flash Attention решила квадратичную проблему памяти для длинных контекстов.

Что такое Flash Attention?

Алгоритм (Dao et al., 2022) вычисления attention с O(n) использованием памяти GPU вместо O(n²) через IO-aware тайлинг. Ускоряет обучение Transformer в 2–4 раза.

Применяется ли Transformer для изображений?

Да. Vision Transformer (ViT) разбивает изображение на патчи и применяет Transformer. Превосходит CNN на больших датасетах. DINO, SAM основаны на ViT.

О термине

Название Transformer

English Transformer

Раздел Глоссарий

Категорий 3

Отраслей 3

Платформа на связи

Подберём решение по этому классу

Поможем выбрать платформу Transformer под бюджет и стек, сравним аналоги, дадим демо у вендора.

Подобрать решение Сравнить

Категории

Машинное обучение Платформы ИИ/GenAI Большие языковые модели (LLM)

Применение по отраслям

Цифровые услуги (B2C, e-commerce, онлайн-сервисы) Образование и наука Здравоохранение и медицина

Другие термины

СКЗИ Multi-cloud Сводная таблица Стратегия роста Job Shadowing

Весь глоссарий

Алфавитный указатель

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

Введение

История и контекст

Как это работает

Семейства Transformer-архитектур

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Transformer»

Интеллектуальная семантическая поисковая система по базе корпоративной документации «Минч ИИ»

CAILA Ultimate 2.0

GigaCode / JARVIS

GigaChat

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про Transformer

Что значит 'Attention Is All You Need'?

Чем decoder-only отличается от encoder-decoder Transformer?

Почему Transformer вытеснил RNN?

Что такое Flash Attention?

Применяется ли Transformer для изображений?

Контур Эксперт-проверка

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли