“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。 微软这篇多模态论文刚挂上arXiv不久,就在业内引发强烈关注。 有网友将之总结成 “在所有事情上打败了所有人” 。 怎么回事?先来看这张雷达图: 橙色内圈 ,是各大任务之前的SOTA。 紫色外圈 ,就是这篇BEiT-3的结果,不仅超越,而且是全面超越。 具体一圈看下来,BEiT-3这个多模态模型不光刷遍多模态任务,连右上角的 纯视觉 三大经典任务也都刷到SOTA,简直是 六边形战士 。 知乎上一位同样做多模态研究的选手直呼 “杀死了比赛” 。 其实说起来,微软BEiT这个系列最开始做的是视觉自监督学习。 其核心思想与 何恺明的MAE 一致,甚至比MAE提出的还早一段时间,不过当时性能惜败于MAE。 如今在多模态方向上绕了一圈后,没想到能以方式横扫视觉与多模态榜单。 取得这种成果的,一般来说还不得是上百亿上千亿参数的大大大模型? 但BEiT-3总参数不过 19亿 ,甚至训练数据上也没什么秘密武器,全都用的 公开资源 。 那么,这一切是如何做到的?
把图像当成一种外语最关键的一点,论文标题和摘要就已经指明:
把图像当成一种外语。 这样一来,文本数据是 English ,图像数据作者开了个小玩笑命名为 Imglish ,那么图文对数据就相当于 平行语料 。 那么多模态也好纯视觉也罢,都能用同一个预训练任务来处理。 在这个基础上,论文中把所做突破总结成一个词, 大一统 (Big Convergence) 。 首先,大一统表现在 网络架构 上。 通过统一多模态表示方式,对于不同任务可以共享一部分参数,采用Multiway (多路) Transformer架构作为骨干网络。 具体来说就是 共享多头自注意力层 ,输出时再根据具体任务选择 专用的FFN层 。 第二,大一统又表现在 预训练方法 上。 既然所有数据都能当成文本数据,那就可以全都按照BERT的方法,用掩码-预测来做预训练,称为Masked Data Modeling。 与基于对比学习的训练方法相比,新方法可以选用更小的Batch Size,又能额外降低显存消耗。 第三,大一统还表现在 规模效应 上。 统一的预训练任务让模型参数扩大到10亿数量级后,对下游任务的 泛化能力 增强。 另外不同模态的数据集在此方法下也产生规模效应。 团队特意只用公开数据的条件下增加训练数据集规模,结果超越了一些使用高质量私有数据的模型。 BEiT-v的训练数据来自5个公开数据集中的约 500万张图像和2100万图像-文本对 ;单模态数据则使用来自ImageNet-21K的 1400万张图像和160GB的文本语料库 。 除此之外,在规模上也远小于其它的多模态预训练模型,例如ALIGN (18亿图文对) 、CLIP (4亿图文对) 、SimVLM (18亿图文对,800GB文本) 等。 所有这些优势叠加在一起,BEiT-3就以更少的训练数据、更小 的 模型参数取得更好的性能。 在纯视觉任务 (图像分类、目标检测、语义分割) 以及多模态任务 (视觉推理、视觉问答、图像描述、微调的跨模态检索、零样本跨模态检索) 总共8类任务下超越各自之前的SOTA。 BEiT-3 这篇论文很简短,不算参考文献只有9页。 但熟悉微软BEiT系列历史的话就会知道,这项研究取得成功的意义不仅在于其自身,也不仅是多模态学习的一项突破—— 还给视觉大规模预训练这个兴起不久的领域,带来新的可能性。
99科技网:http://www.99it.com.cn
