重点观察下 DDPM 最终的目标函数 和 , 目标函数中最关键的是 KL 散度的项, 这一项是 和 的 KL 散度。其中 是逆过程的转换核,它是逆过程(图像生成过程,图像采样过程)的核心, 只要有了它就能完成生成过程。 代表模型,我们的目标就是训练 令其尽量与 相似,它作为 的一个近似解。
单纯的看 ,它是逆向过程的转换核,貌似和前向过程无关,但这是个条件概率分布,它的条件变量是 和 ,也就说它依赖 和 ,那这两项怎么来的呢?注意这里关注的是训练阶段怎么来, 再预测阶段(图像生成阶段) 是模型预测得到的, 本身就是利用 一步步迭代得到的。
看下 是怎么来的, 它是在联合概率的 的基础上边际化(消除变量 )得到的, 如下式所示,
在原始的 DDPM 模型中,对联合概率 的进一步分解是按照马尔科夫链的形式分解的, 即
然而,从概率计算规则上讲,不管 怎么分解,最终都是要把它通过积分消除掉,它可以有很多种不同的分解方式的, 如何分解它并不影响积分后的结果,即不论 的分解方式是什么,最后 的结果都是一样的。 也就说,这种马尔科夫链式分解的方式不是必须得。 如果放弃了马尔科夫链式结构的假设,那就得到了一个非马尔科夫的前向模型。
从以上的分析结果看,如果想放弃非马尔科夫的假设,但又想得到和 DDPM 等价的模型(即不改变DDPM的目标函数), 只需要确保 和 的表达式与DDPM一样就可以了。 接下来就尝试构建一个非马尔科夫建设的模型。
现在,我们重新定义 的分解方式, 在这过程中引入一个人工定义的自由参数 ,它代表 的方差, 它的具体值稍后会讨论。
定义 的分解方式为
其中 维持与DDPM一样,
对任意 ,定义 的分布为
定义完成后,还有一个问题,就是 是否对任意的 成立, 在 DDIM 的原论文 中给出了证明,这里不再赘述证明过程,有兴趣的可以查看原论文的附录B。 结论是:如下分布对任意的 都是成立的。
新的分解方式( )下, 没有了马尔科夫链式结构的假设。 其中 仍然是逆过程的转换核,在逆过程中 , 同时依赖 和 。
在原始的DPM模型中,训练的模型就是直接预测 进而得到 近似表示。 在后来的 DDPM 改进中,利用了 三者的关系式( ), 用 替换了 ,进而令模型去预测 。 现在 的( )期望又直接依赖 了, 兜兜转转居然又回到了最初。 在这里为了能利用上已经训练好的 DDPM 模型(预测噪声的模型), 再一次利用关系式 得到预测的 ,如下式所示
这样我们利用上已经训练好的 DDPM模型 , 不需要再重新训练一个模型。利用 得到 ,代入到 进而就得到了逆向转换核 的(近似)分布
我们整理下整个逆向生成过程,
对于 ,
对于 ,
根据 , 具体地计算(采样)公式为:
在这个新的定义中,前向过程没有了马尔科夫的假设, 并且逆向转换核 也不再满足马尔科夫链的定义(仅依赖上一个状态), 因此本论文作者称之为非马尔科夫扩散过程。 同时可以直接利用之前已经训练好的 DDPM 预测噪声的模型,不用再重新训练一个新模型。
版权声明:
本文来源网络,所有图片文章版权属于原作者,如有侵权,联系删除。
本文网址:https://www.mushiming.com/mjsbk/1654.html