Введение
Transformer – архитектура нейронных сетей, основанная на механизме self-attention, предложенная исследователями Google в статье «Attention Is All You Need» (Vaswani et al., 2017, NeurIPS). Революционный аспект: Transformer полностью отказался от рекуррентных связей (RNN) и свёрток (CNN), заменив их параллельным вычислением весов внимания между всеми позициями последовательности. Это позволило эффективно распараллелить обучение на GPU и масштабировать модели до десятков и сотен миллиардов параметров.
Transformer стал основой для GPT, BERT, T5, LLaMA, PaLM – всех ведущих языковых моделей. Vision Transformer (ViT, 2020) распространил архитектуру на компьютерное зрение.
История и контекст
До 2017 года NLP-задачи решались преимущественно LSTM/GRU с механизмом attention (Bahdanau et al., 2015). Vaswani et al. предложили полностью заменить рекуррентность self-attention: вместо последовательной обработки – параллельный расчёт матрицы внимания Q·Kᵀ/√d_k с последующим применением к V. Это дало: параллелизируемость, отсутствие bottleneck скрытого состояния, моделирование дальних зависимостей за O(1) слоёв. Уже к 2018 году BERT (encoder-only) и GPT (decoder-only) продемонстрировали SOTA на десятках NLP-бенчмарков.
Как это работает
Оригинальный Transformer – encoder-decoder архитектура для seq2seq задач (перевод). Состоит из:
- Multi-Head Self-Attention – вычисляет матрицу весов между всеми парами позиций через Query, Key, Value проекции. Несколько «голов» (heads) параллельно извлекают разные типы зависимостей.
- Feed-Forward Layer – два линейных преобразования с ReLU/GELU между ними. Применяется независимо к каждой позиции.
- Layer Normalization + Residual connections – стабилизация обучения глубоких сетей.
- Positional Encoding – так как self-attention инвариантен к порядку, позиционная информация добавляется явно через синусоидальные или learned embeddings.
Семейства Transformer-архитектур
- Encoder-only (BERT, RoBERTa) – для задач понимания текста (классификация, NER, QA).
- Decoder-only (GPT, LLaMA) – авторегрессионная генерация текста.
- Encoder-Decoder (T5, BART) – seq2seq задачи (перевод, суммаризация).
Где применяется
- Все современные LLM – GPT-4, Claude, Gemini, GigaChat, YandexGPT основаны на Transformer.
- Машинный перевод – DeepL, Google Translate, Yandex Translate.
- Компьютерное зрение – Vision Transformer (ViT), DINO, SAM (Segment Anything Model).
- Мультимодальные системы – CLIP, GPT-4V, Flamingo.
- Распознавание речи – Whisper (OpenAI), wav2vec 2.0.
Преимущества и ограничения
Преимущества: полная параллелизируемость обучения; моделирование дальних зависимостей за O(1) слоёв; масштабируемость (scaling laws); универсальность для любых модальностей.
Ограничения: квадратичная сложность self-attention O(n²) по длине последовательности – проблема для очень длинных контекстов (решается через Sparse Attention, Flash Attention, Linear Attention); большие требования к памяти при обучении; трудозатратное предобучение требует огромных данных и вычислений.
Связь с другими понятиями
Attention-механизм – ключевой компонент Transformer. T5 – encoder-decoder Transformer от Google. LLaMA – decoder-only Transformer с открытыми весами. RNN – предшественник Transformer в NLP. CNN – Vision Transformer конкурирует с CNN в задачах компьютерного зрения. Токен (LLM) – базовая единица входной последовательности для Transformer. Генеративные модели на основе Transformer – GPT, LLaMA, Gemini.