DDPM
Abstract(摘要)
作者提出了一种生成模型:通过模拟物理中的扩散过程,把图像逐渐加噪声再逐渐去噪。我们发现这种方法在数学上和分数匹配以及朗之万动力学有关。通过优化一种改进的变分目标,我们可以生成高质量图像,并且模型还能逐步恢复图像,类似自回归生成的扩展。
热力学扩散过程:从平衡态 (有结构)->非平衡态(随机)
就比如把一滴墨水滴进水里:一开始是清晰的,然后慢慢扩散,最后完全变成随机状态
分数(score):数据分布的梯度方向。往哪个方向移动,数据会变得更像真实数据(探索)
去噪分数匹配(Denoising Score Matching):模型去学习一个去噪方向。
朗之万动力学(Langevin Dynamics):是一个采样算法,意思是:
每一步都朝概率更大的方向移动并且加一点随机噪声,然后反复迭代得到符合分布的样本。(应该就是完成前面原图变纯噪声的这一步)
Discussion(讨论)
优点:
- 高质量样本生成
- diffusion可以用于渐进式图像压缩
直观理解:扩散模型生成图像就是从纯噪声变成模糊图像,最后变成清晰图像,所以可以看成一种逐层恢复细节的压缩编码。作者认为随着图像分辨率和全球网络流量的增加,这种技术可能对互联网数据传输很重要。
扩散模型还可以学习数据的结构,用于下游任务,例如:图像分类、强化学习、特征提取,其实和自监督学习有点类似。因为扩散模型可以在无标签数据上训练。
扩散模型适用于创意领域,例如:艺术创作、摄影、音乐,现在的AI绘画基本就是这一类的应用。
缺点/风险:
- 伪造内容(Deepfake),降低了造假成本,可能被用于政治操纵、虚假新闻、网络欺诈等。
- 随着生成模型进步,检测越来越困难。CNN模型通常还有一些小缺陷(纹理异常、频率分布异常等)可以识别出来,但是生成模型难检测。
- 生成模型会继承训练数据的偏见。很多数据集是互联网自动抓取,所以包含很多偏见(性别偏见、种族偏见、文化偏见等),如果生成模型被大量使用然后再进入互联网就会形成偏见循环强化。