Введение
LLM (Large Language Model, большая языковая модель) – это нейронная сеть, обученная на терабайтах текстовых данных и содержащая от нескольких миллиардов до триллионов параметров. LLM способны генерировать связный текст, отвечать на вопросы, переводить, суммаризировать, писать код, анализировать документы и вести диалог. Они стали технологической основой нового поколения ИИ-продуктов: ChatGPT, Claude, Gemini, а также российских моделей – GigaChat (Сбер), YandexGPT, банковских и корпоративных ассистентов.
LLM изменили подход к разработке ПО и автоматизации: вместо обучения специализированной модели под каждую задачу одна LLM с помощью инструктирования (prompt engineering) может решать десятки различных задач. Это открывает новые возможности для автоматизации интеллектуального труда в корпоративной среде.
История и контекст
Фундамент LLM заложила статья «Attention Is All You Need» (Vaswani et al., Google, 2017), предложившая архитектуру Transformer с механизмом внимания (self-attention). Transformer позволил параллельно обрабатывать длинные последовательности и эффективно обучать модели на огромных датасетах. GPT-1 (OpenAI, 2018) показал, что предобучение на большом корпусе с последующей донастройкой (fine-tuning) даёт высокие результаты. BERT (Google, 2018) ввёл двунаправленный энкодер.
Масштабный сдвиг произошёл с GPT-3 (2020, 175 млрд параметров): модель демонстрировала few-shot и zero-shot возможности без дополнительного обучения. ChatGPT (ноябрь 2022) сделал LLM массово доступными через чат-интерфейс. В России GigaChat (Сбер) запущен в 2023 году, YandexGPT доступен в Алисе и Яндекс 360. Параллельно развиваются открытые LLM: LLaMA (Meta), Mistral, Qwen, которые можно развернуть on-premise.
Как это работает
LLM основаны на архитектуре Transformer, состоящей из стека блоков внимания (attention heads) и полносвязных слоёв. Обучение проходит в два этапа. Предобучение (pre-training): модель учится предсказывать следующий токен (авторегрессионная задача, GPT-подход) или восстанавливать замаскированные токены (BERT-подход) на огромном корпусе текстов – Common Crawl, книги, Википедия, код и прочее.
Выравнивание (alignment): применяется RLHF (Reinforcement Learning from Human Feedback) – обратная связь от людей-оценщиков обучает модель следовать инструкциям и избегать вредных ответов. Инференс: LLM генерирует текст токен за токеном, используя температуру (temperature), top-p и top-k сэмплирование для управления разнообразием ответов. Контекстное окно (context window) определяет максимальный объём текста, который модель учитывает за один раз – от 4K до 1M токенов в современных моделях.
Для адаптации под корпоративные задачи применяются: fine-tuning (дообучение на доменных данных), RAG (Retrieval-Augmented Generation – дополнение промпта извлечёнными из базы знаний фрагментами), LoRA/QLoRA (эффективное дообучение малым числом параметров).
Где применяется
Корпоративные ИИ-ассистенты: помощники для юристов, финансистов, HR-специалистов, автоматически анализирующие документы и отвечающие на вопросы. Разработка ПО: GitHub Copilot, Cursor, JetBrains AI – автодополнение и генерация кода. Контакт-центры: автоматические ответы на обращения, суммаризация переговоров, дообучение на базе знаний компании.
Медицина и фармацевтика: извлечение информации из медицинских записей, поддержка клинических решений. Государственный сектор: анализ нормативных документов, подготовка ответов на обращения граждан. В России использование LLM в КИИ и госсекторе требует размещения on-premise или в отечественном облаке с соблюдением требований ФЗ-149, ФЗ-152, Указа Президента №250.
Связь с другими понятиями
LLM – практическое воплощение NLP и ИИ на современном уровне. MLOps обеспечивает жизненный цикл LLM в продакшене: версионирование, мониторинг дрейфа, переобучение. Облачные инфраструктуры (IaaS, PaaS) предоставляют вычислительные мощности (GPU/TPU) для обучения и инференса. Для корпоративного развёртывания важна интеграция с системами хранения (СУБД, NoSQL, векторные БД) через API и RAG-пайплайны. Отечественные LLM (GigaChat, YandexGPT) могут включаться в реестр Минцифры как российское ПО, обеспечивая соответствие требованиям импортозамещения.
Преимущества и ограничения
Преимущества: универсальность (одна модель для множества задач), высокое качество генерации текста на уровне человека, способность работать без примеров (zero-shot), быстрая адаптация через промптинг и RAG без полного переобучения, снижение стоимости автоматизации интеллектуального труда.
Ограничения: галлюцинации (генерация правдоподобных, но ложных фактов), высокие требования к GPU-ресурсам для обучения и инференса, ограниченное контекстное окно, риски утечки данных при использовании внешних API, необходимость валидации выходных данных для критически важных приложений. Регуляторика (ЕС AI Act, российское законодательство об ИИ) формирует дополнительные требования к применению LLM.