“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
了解了整个BEiT系列的发展历程,最后再来看一下BEiT-3。 论文共同一作 董力 ,点出了模型命名中 “ 3” 的含义: 多模态统一的预训练方式+共享Attention的多路Transformer+扩大规模的大一统 (Big Convergence) 。 如此一来,BEiT-3能在多模态任务和视觉任务中都取得SOTA也就不奇怪了。 这样一篇论文,自然吸引了行业内很多目光。 鲁汶大学一位教授认为,这代表微软在AI科研方面赶上谷歌/DeepMind、Meta和OpenAI,“重新坐上了牌桌”。 随着讨论热度升级,对论文更严格的审视目光也多了起来。 谷歌一位研究员指出,论文结果看起来简洁又令人印象深刻,就是这雷达图的坐标取值有点不太严谨。 知乎上也有网友提问,如果用了CLIP作为教师模型的话,那么来自CLIP高质量配对数据的贡献有多少,直接改改CLIP就用又会如何?
作者团队最后再来介绍一下作者团队,BEiT-3相关研究论文的作者都来自微软。 三位共同一作分别是Wenhui Wang,Hangbo Bao(鲍航波)和Li Dong(董力)。 其中,鲍航波和董力都是从初代BEiT就参与了研究,一直贯穿VL-BEiT和BEiT v2的发展,鲍航波更是BEiT和VL-BEiT论文的一作。另一位Wenhui Wang之前也曾参与过VL-BEiT的研究。 通讯作者是微软亚洲研究院NLP小组的Partner研究经理Furu Wei(韦福如)。
99科技网:http://www.99it.com.cn
