AI模型的大一统!多模态领域乱杀的十二边形战士(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
在未来的工作中,BEIT团队正在对BEIT-3进行多语言的预训练模型的构建工作,并在BEIT-3中加入更多的模态信息(如音频),以促进大一统的任务更够更加的统一。
我的总结其实没有读这篇文章之前,我只是觉得我戏谑的配方竟然真的成为了一个推动大一统工作的一个方向,这其实让我对这篇工作的期待度并没有很高。但是仔细阅读之后,其实我觉得BEIT-3给了我很多的思考。原来结构真的可以不必如此复杂,利用数据量+自监督+大参数量模型是真的可以做到一个很棒的效果。其实在VIT-MLP出来的时候,我觉得数据才是王道,在CLIP出来的时候我觉得预训练模型才是王道,在Swin-T和ConvNext出来之后我一直都觉得其实架构才是王道,到MAE出来的时候,我觉得训练方式才是王道。其实我一直都没有很能get到能够影响CV模型精度的到底是什么。好在,看了文章之后我起码知道了CLIP是错的。这也算是没有白看这篇论文~
回到我刚开始埋下来的坑中,那到底啥才是 核弹炸不到的地方呢? 其实答案很简单,我们 回到数据本身 ,其实如果这个模态之间没有必然的联系和规律,自然这种方法就无法有效的捕捉模态之间的特征,退化为单一模态的样式了。我再举个例子,如果两个模态的信息不是一一对齐,而是相互互补的呢?这种多路的注意力同就肯定无法合理化的进行特征相互的补充了。
我觉得我们对于大模型的探索会一直继续,一直未完待续的!所以写这篇知乎的时候我人还在吃Pizza,我的钱包也因为 假期的挥霍所剩无几了 ,所以其实吃完Pizza的我要继续的写文章了,真的是不知道啥时候才能休息一会儿啊!
99科技网:http://www.99it.com.cn

2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大
快资讯2022-09-06
