VAE和Stable Diffusion的关系

阿维的博客日记

829人浏览 · 2025-05-07 10:55:16

阿维的博客日记 · 2025-05-07 10:55:16 发布

文章目录

， VAE（变分自编码器） 和 Stable Diffusion 有密切关系，尤其体现在其 编码器和解码器结构上，但它们并不完全等同。

✅ 简单回顾：什么是 VAE？

变分自编码器（VAE） 是一种生成模型，结构包含：

编码器（Encoder）：将输入数据编码为潜在空间中的分布（而不是一个点），即输出均值和方差；
重参数化技巧（Reparameterization Trick）：从这个分布中采样潜在变量；
解码器（Decoder）：从潜在变量中重构出原始数据；
KL 散度损失：用来让编码分布接近标准正态分布。

🔄 Stable Diffusion 和 VAE 的关系：

在 Stable Diffusion 中，VAE 的角色主要体现在数据预处理和还原：

🎯 编码器：

输入一张真实图像；
编码成 潜在空间中的一个“紧凑表征”（一个更小的 latent image）；
这个 latent image 是接下来扩散过程的输入。

💥 解码器：

当扩散过程完成后（得到一个 denoised latent 表征）；
用解码器将 latent image 还原为最终的图像。

这个过程就是 Stable Diffusion 中的 VAE。

🤔 那 Stable Diffusion 本身是 VAE 吗？

不是。

Stable Diffusion 是基于 扩散模型（Diffusion Models） 的，它的核心是逐步去噪的过程；
它的 潜在空间编码器和解码器 是借用了 VAE 的结构思路；
但主要的建模能力来自 U-Net 模型 + 噪声预测（denoising），不是 VAE 的重参数化采样方式。

🧠 简要对比：

方面	VAE	Stable Diffusion
核心机制	编码-解码 + KL损失	噪声建模 + 去噪采样
编码器	输出高斯分布	压缩图像为 latent
解码器	重建图像	从 latent 生成图像
潜变量使用	显式使用 ( z \sim N(\mu, \sigma^2) )	在 latent space 上运行扩散

画个结构图或者进一步讲讲 latent space 和扩散过程的交互
在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

4步精通AI动画生成：ComfyUI-AnimateDiff-Evolved终极指南

想要轻松创作出惊艳的AI动画吗？ComfyUI-AnimateDiff-Evolved就是你的完美选择！这款强大的AI动画生成工具让任何人都能快速上手，制作出专业级的动态视频内容。🚀## 什么是ComfyUI-AnimateDiff-Evolved？**ComfyUI-AnimateDiff-Evolved**是AnimateDiff的改进版本，专为ComfyUI设计。它不仅能生成流畅自

火山引擎 ADG 社区

实时人像分割：U-2-Net助力Clipping Camera实现实时拍摄

想要在手机拍摄时自动分离人物与背景，实现专业级的人像分割效果吗？U-2-Net深度神经网络模型为你提供了完美的解决方案！🎯 这款强大的实时人像分割技术已经成功应用于Clipping Camera等热门应用，让普通用户也能享受到AI技术的便利。U-2-Net是一个基于深度学习的显著性目标检测模型，专门用于实时人像分割和背景移除。它采用独特的U型架构设计，能够在保持高精度的同时实现快速处理，完美

火山引擎 ADG 社区

Cookiecutter Django测试框架：unittest与pytest双支持完整指南

想要构建高质量的Django应用程序？Cookiecutter Django为您提供了强大的测试框架支持，同时兼容unittest和pytest两大测试工具，让您的开发过程更加高效可靠。这个专业的Django项目模板不仅简化了项目初始化，更在测试环节提供了完整的解决方案。## 🔥 为什么需要双测试框架支持？在Django开发中，测试是确保代码质量的关键环节。Cookiecutter Dj