DDIM（Denoising Diffusion Implicit Models）公式推导

weixin_66009678

862人浏览 · 2025-10-09 12:57:16

weixin_66009678 · 2025-10-09 12:57:16 发布

DDIM（Denoising Diffusion Implicit Models）公式推导

1. 回顾DDPM的目标

在DDPM中，前向过程（扩散过程）是一个马尔可夫链：

$q(x_{1:T} | x_0) = \prod_{t=1}^{T} q(x_t | x_{t-1}), \quad q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I})$

其中 $βt\beta_t$ 是噪声调度。

通过重参数化技巧，可直接从 $x_0$ 采样 $x_t$ ：

$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})$

其中 $αt=1−βt\alpha_t = 1 - \beta_t$ ， $αˉt=∏i=1tαi\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i$ 。

逆向过程定义为：

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 \mathbf{I})$

$\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)$

方差 $σt\sigma_t$ 的选择

在DDPM中， $σt\sigma_t$ 通常有两种选择：

选项1： $σt2=βt\sigma_t^2 = \beta_t$
这是前向过程方差的选择，计算简单。

选项2： $σt2=β~t=1−αˉt−11−αˉtβt\sigma_t^2 = \tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t$
这是根据变分下界推导出的最优选择，DDPM论文中主要采用这种。
采样过程
将 $μθ\mu_\theta$ 表达式代入，得到完整的 $x_{t-1}$ 计算公式：
$x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sigma_t \cdot \epsilon$

这边也给出物理意义解释，这个采样过程的直观理解是：

去噪方向： $μθ(xt,t)\mu_\theta(x_t, t)$ 给出了从 $x_t$ 到 $x_{t-1}$ 的主要方向
随机性： $σt⋅ϵ\sigma_t \cdot \epsilon$ 添加了必要的随机性，确保生成的多样性
逐步细化：通过重复这个过程（从 $t = T$ 到 $t = 0$ ），噪声图像逐渐被去噪成清晰图像

2. DDIM的建模：定义新的生成过程

DDIM放弃马尔可夫性假设，定义新的生成过程：

$p_\theta(x_{t-1} | x_t, x_0) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, x_0, t), \sigma_t^2 \mathbf{I})$

其中显式引入 $x_0$ ，实际采样时用预测值 $x^0\hat{x}_0$ 替代。

3. 关键洞察：保持边缘分布一致

确保边缘分布与DDPM一致：

$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) \mathbf{I})$

4. 推导DDIM的采样规则

步骤1：表示 $x_t$ 和 $x_{t-1}$

$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon_t$

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} x_0 + \sqrt{1 - \bar{\alpha}_{t-1}} \epsilon_{t-1}$

步骤2：预测 $x_0$

$x^0=xt−1−αˉtϵθ(t)(xt)αˉt \hat{x}_0 = \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta^{(t)}(x_t)}{\sqrt{\bar{\alpha}_t}}$

步骤3：构造 $x_{t-1}$

$xt−1=αˉt−1x^0+1−αˉt−1−σt2⋅ϵθ(t)(xt)+σtϵ x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \hat{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \cdot \epsilon_\theta^{(t)}(x_t) + \sigma_t \epsilon$

步骤4：验证边缘分布

当 $ϵθ(t)(xt)=ϵt\epsilon_\theta^{(t)}(x_t) = \epsilon_t$ 时：

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} x_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \cdot \epsilon_t + \sigma_t \epsilon$

均值为 $αˉt−1x0\sqrt{\bar{\alpha}_{t-1}} x_0$ ，方差为 $\bar{\alpha}_{t-1}$ ，与期望分布一致。

5. 最终公式与解释

DDIM采样公式

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta^{(t)}(x_t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \cdot \epsilon_\theta^{(t)}(x_t) + \sigma_t \epsilon$

$σt\sigma_t$ 的选择

$σt=0\sigma_t = 0$ (确定性采样)：
$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta^{(t)}(x_t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1 - \bar{\alpha}_{t-1}} \cdot \epsilon_\theta^{(t)}(x_t)$
$σt=1−αˉt−11−αˉt1−αˉtαˉt−1\sigma_t = \sqrt{\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t}} \sqrt{1 - \frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}}$ (DDPM特例)

总结

关键点	说明
目标	构建非马尔可夫生成过程加速采样
约束	保持边缘分布 $q(x_t \| x_0)$ 与DDPM一致
方法	设计采样规则 $xt−1=f(xt,x^0,ϵθ)x_{t-1} = f(x_t, \hat{x}_0, \epsilon_\theta)$
结果	统一框架支持确定性/随机采样，大幅加速生成

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla