DDPM | Bamboo Traces

DDPM

Bamboo Lv3

2026-03-12 18:21:42 2026-03-12 19:20:28

论文阅读

675 Words 2 Mins

Abstract(摘要)

作者提出了一种生成模型：通过模拟物理中的扩散过程，把图像逐渐加噪声再逐渐去噪。我们发现这种方法在数学上和分数匹配以及朗之万动力学有关。通过优化一种改进的变分目标，我们可以生成高质量图像，并且模型还能逐步恢复图像，类似自回归生成的扩展。

热力学扩散过程：从平衡态（有结构）->非平衡态（随机）

就比如把一滴墨水滴进水里：一开始是清晰的，然后慢慢扩散，最后完全变成随机状态

分数（score）：数据分布的梯度方向。往哪个方向移动，数据会变得更像真实数据（探索）

去噪分数匹配（Denoising Score Matching）：模型去学习一个去噪方向。

朗之万动力学（Langevin Dynamics）：是一个采样算法，意思是：

每一步都朝概率更大的方向移动并且加一点随机噪声，然后反复迭代得到符合分布的样本。（应该就是完成前面原图变纯噪声的这一步）

Discussion（讨论）

优点：

高质量样本生成
diffusion可以用于渐进式图像压缩

直观理解：扩散模型生成图像就是从纯噪声变成模糊图像，最后变成清晰图像，所以可以看成一种逐层恢复细节的压缩编码。作者认为随着图像分辨率和全球网络流量的增加，这种技术可能对互联网数据传输很重要。

扩散模型还可以学习数据的结构，用于下游任务，例如：图像分类、强化学习、特征提取，其实和自监督学习有点类似。因为扩散模型可以在无标签数据上训练。
扩散模型适用于创意领域，例如：艺术创作、摄影、音乐，现在的AI绘画基本就是这一类的应用。

缺点/风险：

伪造内容（Deepfake），降低了造假成本，可能被用于政治操纵、虚假新闻、网络欺诈等。
随着生成模型进步，检测越来越困难。CNN模型通常还有一些小缺陷（纹理异常、频率分布异常等）可以识别出来，但是生成模型难检测。
生成模型会继承训练数据的偏见。很多数据集是互联网自动抓取，所以包含很多偏见（性别偏见、种族偏见、文化偏见等），如果生成模型被大量使用然后再进入互联网就会形成偏见循环强化。

Introduction（导言）

1. Abstract(摘要)
2. Discussion（讨论）
3. Introduction（导言）

1. Abstract(摘要)
2. Discussion（讨论）
3. Introduction（导言）