Что такое диффузионные модели
Диффузионные модели (Diffusion Models) – класс генеративных вероятностных моделей, вдохновлённых нерастворимой диффузией в физике. Ключевая идея: обучить нейронную сеть обращать процесс постепенного зашумления данных. Подход предложен в контексте Deep Learning в работах Sohl-Dickstein et al. (2015) и закреплён как DDPM (Denoising Diffusion Probabilistic Models) в статье Ho et al. (NeurIPS 2020).
В 2022 году диффузионные модели стали технологической основой главных text-to-image систем: Stable Diffusion, DALL-E 2 (OpenAI), Imagen (Google) и Midjourney. Они превзошли GAN по качеству и разнообразию генерации, хотя и значительно медленнее при инференсе.
История: от физики к генеративному ИИ
Математические основы метода восходят к стохастическим дифференциальным уравнениям и работам по термодинамике. Основные вехи:
- 2015: Sohl-Dickstein et al. – первая публикация диффузионных вероятностных моделей для генерации.
- 2020: Ho et al. – DDPM с упрощённой целевой функцией и качеством, превосходящим GAN на CelebA-HQ.
- 2021: Song et al. – Score-based SDE позволяет ускорить семплирование (DDIM, 50 шагов вместо 1000).
- 2021: OpenAI GLIDE – диффузия с CLIP-guidance для text-to-image задач.
- 2022: DALL-E 2 (OpenAI), Stable Diffusion 1.x (Stability AI / CompVis), Imagen (Google).
- 2023–2024: Stable Diffusion XL, FLUX.1, Sora (OpenAI, video diffusion) – распространение на видео и 3D.
Как работают диффузионные модели
Прямой процесс (q): исходное изображение x₀ постепенно зашумляется за T шагов путём добавления гауссова шума. После T ≈ 1000 шагов изображение превращается в чистый белый шум.
Обратный процесс (p_θ): нейронная сеть (обычно U-Net) обучается предсказывать добавленный шум на каждом шаге и «отматывать» процесс назад. При инференсе модель стартует с чистого шума и итеративно восстанавливает изображение за T шагов.
Latent Diffusion (LDM): для ускорения вычислений Stable Diffusion работает не в пространстве пикселей, а в сжатом латентном пространстве VAE-автокодировщика. Это снизило требования к памяти GPU и ускорило генерацию в 4–16×.
Guidance: Classifier-Free Guidance позволяет управлять генерацией через текстовый промпт, встраивая CLIP-эмбеддинг текста в U-Net.
Применение диффузионных моделей
- Text-to-image: Stable Diffusion, Midjourney, DALL-E 3 – генерация изображений по описанию.
- Image editing: Inpainting (заполнение фрагментов), outpainting (расширение кадра), img2img (стилизация).
- Text-to-video: Sora (OpenAI), Gen-2 (Runway) – синтез видеоклипов длиной до нескольких минут.
- Drug discovery: DiffDock (диффузия молекулярных поз) ускоряет предсказание связывания лиганда с белком.
- Медицинская визуализация: синтез MRI-снимков для аугментации данных при дефиците реальных случаев.
- Аудио и музыка: AudioLDM, MusicGen-Diffusion – генерация звуков и музыкальных фрагментов.
Преимущества и ограничения
Преимущества: высокое качество и разнообразие генерации, стабильность обучения (в отличие от GAN), гибкое управление через промпты и guidance scale, применимость к разным модальностям данных.
Ограничения: медленный инференс (100–1000 шагов деноизинга), высокие требования к GPU, сложность точного следования тексту (text alignment), риск воспроизведения элементов обучающих данных (memorization).
Связь с другими понятиями
Диффузионные модели – подкласс генеративных моделей и соперник GAN. Современные реализации опираются на архитектуру трансформера (DiT – Diffusion Transformer). Генерация управляется attention-механизмом для выравнивания текстового и визуального представлений. Оценка качества изображений ведётся метриками FID и CLIP-Score, связанными с evaluation-ml.