Термин · Глоссарий B2B-ПО

Диффузионные модели

Диффузионные модели – класс генеративных моделей глубокого обучения, обучающихся обращать процесс постепенного зашумления данных. В прямом процессе к изображению добавляется гауссов шум за T шагов; в обратном – нейронная сеть учится предсказывать и удалять шум, восстанавливая данные. Основа Stable Diffusion, DALL-E 2, Midjourney.

Буква «Д» В категориях: 3 Платформ: 6+

Что такое диффузионные модели

Диффузионные модели (Diffusion Models) – класс генеративных вероятностных моделей, вдохновлённых нерастворимой диффузией в физике. Ключевая идея: обучить нейронную сеть обращать процесс постепенного зашумления данных. Подход предложен в контексте Deep Learning в работах Sohl-Dickstein et al. (2015) и закреплён как DDPM (Denoising Diffusion Probabilistic Models) в статье Ho et al. (NeurIPS 2020).

В 2022 году диффузионные модели стали технологической основой главных text-to-image систем: Stable Diffusion, DALL-E 2 (OpenAI), Imagen (Google) и Midjourney. Они превзошли GAN по качеству и разнообразию генерации, хотя и значительно медленнее при инференсе.

История: от физики к генеративному ИИ

Математические основы метода восходят к стохастическим дифференциальным уравнениям и работам по термодинамике. Основные вехи:

2015: Sohl-Dickstein et al. – первая публикация диффузионных вероятностных моделей для генерации.
2020: Ho et al. – DDPM с упрощённой целевой функцией и качеством, превосходящим GAN на CelebA-HQ.
2021: Song et al. – Score-based SDE позволяет ускорить семплирование (DDIM, 50 шагов вместо 1000).
2021: OpenAI GLIDE – диффузия с CLIP-guidance для text-to-image задач.
2022: DALL-E 2 (OpenAI), Stable Diffusion 1.x (Stability AI / CompVis), Imagen (Google).
2023–2024: Stable Diffusion XL, FLUX.1, Sora (OpenAI, video diffusion) – распространение на видео и 3D.

Как работают диффузионные модели

Прямой процесс (q): исходное изображение x₀ постепенно зашумляется за T шагов путём добавления гауссова шума. После T ≈ 1000 шагов изображение превращается в чистый белый шум.

Обратный процесс (p_θ): нейронная сеть (обычно U-Net) обучается предсказывать добавленный шум на каждом шаге и «отматывать» процесс назад. При инференсе модель стартует с чистого шума и итеративно восстанавливает изображение за T шагов.

Latent Diffusion (LDM): для ускорения вычислений Stable Diffusion работает не в пространстве пикселей, а в сжатом латентном пространстве VAE-автокодировщика. Это снизило требования к памяти GPU и ускорило генерацию в 4–16×.

Guidance: Classifier-Free Guidance позволяет управлять генерацией через текстовый промпт, встраивая CLIP-эмбеддинг текста в U-Net.

Применение диффузионных моделей

Text-to-image: Stable Diffusion, Midjourney, DALL-E 3 – генерация изображений по описанию.
Image editing: Inpainting (заполнение фрагментов), outpainting (расширение кадра), img2img (стилизация).
Text-to-video: Sora (OpenAI), Gen-2 (Runway) – синтез видеоклипов длиной до нескольких минут.
Drug discovery: DiffDock (диффузия молекулярных поз) ускоряет предсказание связывания лиганда с белком.
Медицинская визуализация: синтез MRI-снимков для аугментации данных при дефиците реальных случаев.
Аудио и музыка: AudioLDM, MusicGen-Diffusion – генерация звуков и музыкальных фрагментов.

Преимущества и ограничения

Преимущества: высокое качество и разнообразие генерации, стабильность обучения (в отличие от GAN), гибкое управление через промпты и guidance scale, применимость к разным модальностям данных.

Ограничения: медленный инференс (100–1000 шагов деноизинга), высокие требования к GPU, сложность точного следования тексту (text alignment), риск воспроизведения элементов обучающих данных (memorization).

Связь с другими понятиями

Диффузионные модели – подкласс генеративных моделей и соперник GAN. Современные реализации опираются на архитектуру трансформера (DiT – Diffusion Transformer). Генерация управляется attention-механизмом для выравнивания текстового и визуального представлений. Оценка качества изображений ведётся метриками FID и CLIP-Score, связанными с evaluation-ml.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Диффузионные модели».

Платформы класса «Диффузионные модели»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Автоматизированная система обеспечения надежности и качества аппаратуры (АСОНИКА)

Система АСОНИКА предназначена для анализа и обеспечения стойкости радиоэлектронных средств (РЭС) к комплексным...

Цена по запросу

Подробнее →

С-

Синтелли - программный комплекс хемоинформатики на базе искусственного интеллекта для решения задач органической и медицинской химии

ML-платформы

Синтелли — российская SaaS-платформа хемоинформатики на базе ИИ от компании (ИНН 9731018049). Содержит базу да...

Цена по запросу

Подробнее →

СА

Сайбокс

Машинное обучение

ML / MLOps-платформа полного цикла от Т1 для разработки, обучения, развёртывания и мониторинга моделей машинно...

Цена по запросу

★ 4.7

Подробнее →

Контейнер для создания дополнительных приложений "ALIOTH DPFS"

АЛИОТ осуществляет полный цикл производства пластиковых карт от разработки дизайна до непосредственного выпуск...

Цена по запросу

★ 4.3

Подробнее →

ПО

Программное обеспечение Система выявления инцидентов на основе технологий компьютерного зрения (Computer vision traffic incident system)

Машинное обучение

Программное обеспечение системы выявления инцидентов на дорогах с использованием технологий компьютерного зрен...

Цена по запросу

Подробнее →

ПК

Программный комплекс интеллектуального видеомониторинга и уведомлений "VIDEOfor"

Машинное обучение

ПК интеллектуального видеомониторинга на основе AI: детекция людей, транспорта, нарушений, голосовое оповещени...

Цена по запросу

★ 4.7

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Диффузионные модели».

Машинное обучение Платформы ИИ/GenAI Большие языковые модели (LLM)

Где применяется

Отрасли, в которых «Диффузионные модели» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Здравоохранение и медицина

Медиа, искусство и развлечения

Маркетинг и реклама

Наука и НИИ

Частые вопросы про Диффузионные модели

Чем диффузионные модели лучше GAN?

Диффузионные модели стабильнее обучаются, не страдают от mode collapse и генерируют более разнообразные и детализированные изображения.

Почему диффузионные модели медленнее GAN?

GAN генерирует за один проход; диффузионные модели требуют 20–1000 итераций деноизинга при инференсе.

Что такое Latent Diffusion?

Latent Diffusion (LDM) работает в сжатом VAE-пространстве, а не напрямую с пикселями, что ускоряет обучение и снижает потребление памяти.

Какие GPU нужны для запуска Stable Diffusion?

Stable Diffusion 1.5 запускается на GPU с 4–6 ГБ VRAM; SDXL рекомендует 8+ ГБ. Возможен запуск на CPU с потерей скорости.

Можно ли обучить диффузионную модель на своих данных?

Да – DreamBooth и LoRA позволяют дообучить Stable Diffusion на 10–30 примерах своего стиля или объекта за несколько минут.

Что такое Classifier-Free Guidance?

Техника, усиливающая соответствие генерируемого изображения текстовому промпту через взвешенное сочетание условной и безусловной генерации.

О термине

Название Диффузионные модели

Раздел Глоссарий

Категорий 3

Отраслей 4

Платформа на связи

Подберём решение по этому классу

Поможем выбрать платформу Диффузионные модели под бюджет и стек, сравним аналоги, дадим демо у вендора.

Подобрать решение Сравнить

Категории

Машинное обучение Платформы ИИ/GenAI Большие языковые модели (LLM)

Применение по отраслям

Здравоохранение и медицина Медиа, искусство и развлечения Маркетинг и реклама Наука и НИИ

Другие термины

AOV Flux Silicon Anode Batteries Performance Management Lead Эквайринг (финтех)

Весь глоссарий

Алфавитный указатель

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

Что такое диффузионные модели

История: от физики к генеративному ИИ

Как работают диффузионные модели

Применение диффузионных моделей

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Диффузионные модели»

Автоматизированная система обеспечения надежности и качества аппаратуры (АСОНИКА)

Синтелли - программный комплекс хемоинформатики на базе искусственного интеллекта для решения задач органической и медицинской химии

Сайбокс

Контейнер для создания дополнительных приложений "ALIOTH DPFS"

Программное обеспечение Система выявления инцидентов на основе технологий компьютерного зрения (Computer vision traffic incident system)

Программный комплекс интеллектуального видеомониторинга и уведомлений "VIDEOfor"

Категории каталога

Где применяется

Частые вопросы про Диффузионные модели

Чем диффузионные модели лучше GAN?

Почему диффузионные модели медленнее GAN?

Что такое Latent Diffusion?

Какие GPU нужны для запуска Stable Diffusion?

Можно ли обучить диффузионную модель на своих данных?

Что такое Classifier-Free Guidance?

Контур.Школа

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли