Термин · Глоссарий B2B-ПО

Диффузионные модели

Диффузионные модели – класс генеративных моделей глубокого обучения, обучающихся обращать процесс постепенного зашумления данных. В прямом процессе к изображению добавляется гауссов шум за T шагов; в обратном – нейронная сеть учится предсказывать и удалять шум, восстанавливая данные. Основа Stable Diffusion, DALL-E 2, Midjourney.

Буква «Д» В категориях: 3 Платформ: 6+

Что такое диффузионные модели

Диффузионные модели (Diffusion Models) – класс генеративных вероятностных моделей, вдохновлённых нерастворимой диффузией в физике. Ключевая идея: обучить нейронную сеть обращать процесс постепенного зашумления данных. Подход предложен в контексте Deep Learning в работах Sohl-Dickstein et al. (2015) и закреплён как DDPM (Denoising Diffusion Probabilistic Models) в статье Ho et al. (NeurIPS 2020).

В 2022 году диффузионные модели стали технологической основой главных text-to-image систем: Stable Diffusion, DALL-E 2 (OpenAI), Imagen (Google) и Midjourney. Они превзошли GAN по качеству и разнообразию генерации, хотя и значительно медленнее при инференсе.

История: от физики к генеративному ИИ

Математические основы метода восходят к стохастическим дифференциальным уравнениям и работам по термодинамике. Основные вехи:

  • 2015: Sohl-Dickstein et al. – первая публикация диффузионных вероятностных моделей для генерации.
  • 2020: Ho et al. – DDPM с упрощённой целевой функцией и качеством, превосходящим GAN на CelebA-HQ.
  • 2021: Song et al. – Score-based SDE позволяет ускорить семплирование (DDIM, 50 шагов вместо 1000).
  • 2021: OpenAI GLIDE – диффузия с CLIP-guidance для text-to-image задач.
  • 2022: DALL-E 2 (OpenAI), Stable Diffusion 1.x (Stability AI / CompVis), Imagen (Google).
  • 2023–2024: Stable Diffusion XL, FLUX.1, Sora (OpenAI, video diffusion) – распространение на видео и 3D.

Как работают диффузионные модели

Прямой процесс (q): исходное изображение x₀ постепенно зашумляется за T шагов путём добавления гауссова шума. После T ≈ 1000 шагов изображение превращается в чистый белый шум.

Обратный процесс (p_θ): нейронная сеть (обычно U-Net) обучается предсказывать добавленный шум на каждом шаге и «отматывать» процесс назад. При инференсе модель стартует с чистого шума и итеративно восстанавливает изображение за T шагов.

Latent Diffusion (LDM): для ускорения вычислений Stable Diffusion работает не в пространстве пикселей, а в сжатом латентном пространстве VAE-автокодировщика. Это снизило требования к памяти GPU и ускорило генерацию в 4–16×.

Guidance: Classifier-Free Guidance позволяет управлять генерацией через текстовый промпт, встраивая CLIP-эмбеддинг текста в U-Net.

Применение диффузионных моделей

  • Text-to-image: Stable Diffusion, Midjourney, DALL-E 3 – генерация изображений по описанию.
  • Image editing: Inpainting (заполнение фрагментов), outpainting (расширение кадра), img2img (стилизация).
  • Text-to-video: Sora (OpenAI), Gen-2 (Runway) – синтез видеоклипов длиной до нескольких минут.
  • Drug discovery: DiffDock (диффузия молекулярных поз) ускоряет предсказание связывания лиганда с белком.
  • Медицинская визуализация: синтез MRI-снимков для аугментации данных при дефиците реальных случаев.
  • Аудио и музыка: AudioLDM, MusicGen-Diffusion – генерация звуков и музыкальных фрагментов.

Преимущества и ограничения

Преимущества: высокое качество и разнообразие генерации, стабильность обучения (в отличие от GAN), гибкое управление через промпты и guidance scale, применимость к разным модальностям данных.

Ограничения: медленный инференс (100–1000 шагов деноизинга), высокие требования к GPU, сложность точного следования тексту (text alignment), риск воспроизведения элементов обучающих данных (memorization).

Связь с другими понятиями

Диффузионные модели – подкласс генеративных моделей и соперник GAN. Современные реализации опираются на архитектуру трансформера (DiT – Diffusion Transformer). Генерация управляется attention-механизмом для выравнивания текстового и визуального представлений. Оценка качества изображений ведётся метриками FID и CLIP-Score, связанными с evaluation-ml.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Диффузионные модели».

Платформы класса «Диффузионные модели»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Синтелли — российская SaaS-платформа хемоинформатики на базе ИИ от компании (ИНН 9731018049). Содержит базу да...
Цена по запросу
Подробнее →
СА

Сайбокс

Машинное обучение
ML / MLOps-платформа полного цикла от Т1 для разработки, обучения, развёртывания и мониторинга моделей машинно...
Цена по запросу
★ 4.7
Подробнее →
Программное обеспечение системы выявления инцидентов на дорогах с использованием технологий компьютерного зрен...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Диффузионные модели».

Где применяется

Отрасли, в которых «Диффузионные модели» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Диффузионные модели

Чем диффузионные модели лучше GAN?

Диффузионные модели стабильнее обучаются, не страдают от mode collapse и генерируют более разнообразные и детализированные изображения.

Почему диффузионные модели медленнее GAN?

GAN генерирует за один проход; диффузионные модели требуют 20–1000 итераций деноизинга при инференсе.

Что такое Latent Diffusion?

Latent Diffusion (LDM) работает в сжатом VAE-пространстве, а не напрямую с пикселями, что ускоряет обучение и снижает потребление памяти.

Какие GPU нужны для запуска Stable Diffusion?

Stable Diffusion 1.5 запускается на GPU с 4–6 ГБ VRAM; SDXL рекомендует 8+ ГБ. Возможен запуск на CPU с потерей скорости.

Можно ли обучить диффузионную модель на своих данных?

Да – DreamBooth и LoRA позволяют дообучить Stable Diffusion на 10–30 примерах своего стиля или объекта за несколько минут.

Что такое Classifier-Free Guidance?

Техника, усиливающая соответствие генерируемого изображения текстовому промпту через взвешенное сочетание условной и безусловной генерации.