AI模型的大一统!多模态领域乱杀的十二边形战士
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
在 Swin-v2 出来不久之后,我预感一个很棒的大一统模型很快就会到来了,当时,我躺在床上,给我的好伙伴写下了必胜的AI模型配方!
大数据量+大模型架构+MAE(mask data)+多模态训练方式
写下这条配方时候我其实就觉得下一个无敌的模型估计很快就可以出现了。没想到, 学都还没有开 , BEIT-3 就迎面向我们走来了。一个能在多模态领域乱杀的无敌十二边形战士,在纯视觉领域都能是妥妥的 SOTA。一个真正做到了大一统的模型框架!
疲惫但是经过这么多轮的,大模型的轰炸。其实人工智能组成的中坚力量(实验室小作坊们)已经没有办法顶得住这些 核弹 的压力了。 这么大的模型,这么庞大的训练量,效果再炸裂又能怎样,我又复现不出来。 这种声音成为了现在开发者们的主流心声。 大家都疲惫了 ,这种工作再 棒 其实也是无效工作,follow的成本太高了。那么这时候很又前瞻性的研究员们就要站出来抵抗了,问出那个 最知乎的问题 ,那有没有大模型有没有不能覆盖到的方向呢? ”核弹“到底有没有炸不到的点呢?
其实是有的,不如我先BEIT-3的工作内容大概内容和大家讲一遍,然后慢慢和大家分析有没有这个答案吧!
为什么会有这样的一个工作?其实先当前的大一统的思路其实很清晰。发展的方向也是主要主要沿着以下三点进行更新迭代, 合适的骨干架构 、 各任务的预训练模型 、 大参数量的模型架构。 本文的BEIT-3也是顺着这个思路对模型进行迭代的,不仅在图像+语言的方向取得 SOTA ,甚至在纯图像领域,也是一马当先,把分数又往前卷了一步!其实我觉得 ADE20k 超过了大杀器 Swin-V2 、在 coco 上虽然不是涨点很多,但是也破了 DINO 的记录,在图像分类任务上也击败了 我的白月光CLIP ,涨了0.6个点,这个可是真正无敌的存在。
合适的骨干架构— Multiway Transformer从 Transformer 在语言翻译上的大获成功,再到ViT在视觉领域上的大放异彩,Transformer架构已经成为了视觉、语言通用的大杀器。对于多模态来说,有一个能够在语言和视觉同时work的网络架构体系,使得无缝处理多种模态的任务成为可能。但是因为视觉和语言毕竟不是一个体系的数据类型,一般来说未来适配不同的下游任务,我们都会重新设计Transformer架构。这种方案其实不利于大一统的思路发展,所以我们需要有一个整体化的架构范式,帮助我们完成大一统的理想。
99科技网:http://www.99it.com.cn

2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大
快资讯2022-09-06
