千万别让富坚义博看到这个(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
与DALL·E和Imagen最大的不同在于,NUWA-Infinity在图像生成上没有采用 扩散模型 。 这是因为,扩散模型虽然在图像生成上效果不错,但它没有办法改变输出图像的大小,包括训练和推理图像的宽高是被预先定义好的。 因此,为了让模型学会“续画”,论文提出了一种基于自回归的自回归生成模型 (autoregressive over autoregressive generation) ,训练时将图像被分成很多个小块,然后再对每个小块 (patch) 分别进行训练。 不过,如果只对这些patch单独训练,容易导致合成图像时出现“不和谐”的结果,例如把头发p到脸上等等。 因此,与一些基于GAN的模型直接对每个patch进行独立训练不同,NUWA-Infinity在进行训练时,有意识地去加强各个patch之间的“依赖性”。 除了对每个patch进行独立训练以外,NUWA-Infinity在推理图像时,还会要求各patch与周围的patch产生“联系”,让生成的图像更具有连续效果。 当然,推理出图像或视频的步骤,在NUWA-Infinity做不同任务时也不一样。 由于文本是一维数据,图像是二维 (宽+长) 数据,视频则是三维数据 (宽+长+时间) ,因此NUWA-Infinity在做不同任务时,推理的顺序也不同。 例如,在“补全图像”的过程中,图像推理是一圈一圈向外生成的;而在文本生成图像、或是视频文本生成时,这些推理的顺序又有不一样的变化: 不过,NUWA-Infinity也还有一些局限性,例如与DALL·E2和Imagen不同的是,它是在特定数据集 (清明上河图、小猪佩奇等) 上训练的。 因此,一方面NUWA-Infinity在更一般的数据集上是否也能表现出这么好的效果,还有待佐证; 另一方面,在文本生成图像上,目前作者并没有将它这一能力与DALL·E2和Imagen等模型进行对比,因此在这一任务上并不能说它是最优秀的,只能说生成图像大小上减少了一些限制。
作者:代码在尽力肝了论文的一作 吴晨飞 (Chenfei Wu),博士毕业于北京邮电大学,现工作于微软亚研院。 在北邮读博期间,他在NeurIPS和ACM Multimedia等顶会上发表过不少与视觉问答(VQA)相关的论文。 △ 图源北邮计算机学院 共同一作 梁健(Jian Liang) , 来自北京大学。 值得一提的是,去年被ECCV 2022收录的NUWA论文,也是这两位作者合作产出的。 此外,来自微软Azure AI团队的Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方跃坚也参与了此次研究,通讯作者则是微软亚研院的高级研究员&研究经理段楠。 对于这项研究本身,有网友调侃:才注册完DALL·E2测试版就看到这个,快跟不上节奏了…… 还有网友大胆想象“有生之年”系列:以这个速度,世纪结束前我们是不是能玩上“可实时生成”的定制VR游戏了? 但对于研究的效果,也有读者怀疑是在“吹牛”,因为这次的“无限版”NUWA还 并没有开源 。对此作者之一Zhe Gan回应表示:
99科技网:http://www.99it.com.cn
