Diffusion Model一发力,GAN就过时了???(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
用OpenAI的一篇论文内容来讲,用Diffusion Model生成的 图像质量明显优于GAN模型 。 DALL·E是个多模态预训练大模型,“多模态”和“大”字都说明,训练这个模型的数据集十分庞大冗杂。 发表这篇推特的Tom Goldstein教授提到,GAN模型训练过程有个难点,就是众多损失函数的鞍点 (saddle-point) 的最优权重如何确定,这其实是个蛮复杂的数学问题。 在多层深度学习模型的训练过程中,需通过多次反馈,直至模型收敛。 但在实际操作中发现,损失函数往往不能可靠地收敛到鞍点,导致模型稳定性较差。即使有研究人员提出一些技巧来加强鞍点的稳定性,但还是不足以解决这个问题。 尤其面对更加复杂、多样化的数据,鞍点的处理就变得愈加困难了。 与GAN不同,DALL·E使用Diffusion Model,不用在鞍点问题上纠结,只需要去最小化一个标准的凸交叉熵损失 (convex cross-entropy loss) ,而且人已经知道如何使其稳定。 这样就大大简化了模型训练过程中,数据处理的难度。说白了,就是用一个新的数学范式,从新颖的角度克服了一道障碍。 此外,GAN模型在训练过程中,除了需要“生成器”,将采样的高斯噪声映射到数据分布;还需要额外训练判别器,这就导致训练变得很麻烦了。 和GAN相比,Diffusion Model只需要训练“生成器”,训练目标函数简单,而且不需要训练别的网络 (判别器、后验分布等) ,瞬间简化了一堆东西。 目前的训练技术让 Diffusion Model直接跨越了GAN领域调模型的阶段 ,而是直接可以用来做下游任务。 △Diffusion Model直观图 从理论角度来看,Diffusion Model的成功在于训练的模型只需要“模仿”一个简单的前向过程对应的逆向过程,而不需要像其它模型那样“黑盒”地搜索模型。 并且,这个逆向过程的每一小步都非常简单,只需要用一个简单的高斯分布 (q(x(t-1)| xt)) 来拟合。 这为Diffusion Model的优化带来了诸多便利,这也是它经验表现非常好的原因之一。
Diffushion Model是否就是完美?不见得。 从趋势上来看,Diffushion Model领域确实正处于百花齐放的状态,但正如“我想唱high C”所述:
这个领域有一些核心的理论问题还需要研究,这给我们这些做理论的人提供了个很有价值的研究内容。> 并且,哪怕对理论研究不感兴趣,由于这个模型已经很work了,它和下游任务的结合也才刚刚起步,有很多地方都可以赶紧占坑。
99科技网:http://www.99it.com.cn

在Stable Diffusion以“ 免费开源 ”爆火AI画画圈后,背后公司的估值快速攀升到了
快资讯2022-09-14

6月26日,driveteslacanada发现,特斯拉柏林超级工厂生产的Model Y Performance已经多次
快资讯2022-08-08