主页 > 快资讯 > 正文

AI模型的大一统!多模态领域乱杀的十二边形战士(3)

2022-09-07 09:58来源:未知编辑:admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在实验中BEIT-3随机屏蔽15%的 单模文本 的标记和50%的 图像-文本对 的文本标记。对于图像,我们使用像BEIT中那样的block-wise级别的掩膜策略来遮蔽40%的图像补丁。我们只使用一个预训练的模型,来与之前的工作进行更明显的训练效果对比。相比之下,以往的视觉-语言多模态模型通常采用 多种预训练任务 ,如图像-文本对比,图文匹配,我们证明了一个更小的预训练模型,更小的batch size也可以用于自监督的图像恢复的训练任务。

基于对比学习的方法通常需要非常大的批规模进行预训练,这带来了更多的工程挑战,比如烧卡!烧GPU!

其实这里我想说的是CLIP,其实CLIP的效果确实非常炸裂,而且zero-short的特点也具有足够的卖点。但是确实强大的预训练模型就是CLIP狂妄的资本,如果脱离了预训练与数据的支撑,CLIP的思路是无法有效work的,从CLIP在MNIST数字识别的数据集上的效果我们大概也知道这种情况了。强大的预训练与数据集其实终究是饮鸠止渴,在强大的模型架构才是发展的第一顺位!

大模型,大爆炸

BEIT-3骨干网是继ViT-giant之后建立的一个 巨型基础模型 。所示,该模型由一个 40层 的Multiway Transformer组成,其中隐藏尺寸为1408,中间尺寸为6144,注意力头为16。每一层都包含视觉支路和语言支路。视觉-语言支路也被在前三个Multiway Transformer层。自注意机制模块也在不同的模态中参与共享。

BEIT-3共包含1.9 Billion 参数,其中视觉专家参数 692M ,语言专家参数 692M ,视觉语言专家参数 52M ,共享自注意模块参数 317M 。

当和ViT-giant使用形同的图像尺度时会有1B的参数量被激活。

BEIT-3下表所示的单模态和多模态数据进行了训练。对于多模态数据,大约有15M幅图像和21M幅文本对,收集自五个公共数据集:Conceptual 12M (CC12M), Conceptual Captions (CC3M) , SBU Captions (SBU) , COCO和Visual Genome (VG) 。

模型参数+训练数据参数

对于图像和文本的单模态数据,我们使用来自ImageNet-21K的14M图像和Wikipedia、BookCorpus 、OpenWebText3、CC-News和Stories的160GB英文文本语料库。我们预训练BEIT-3为1M步。每个batch共包含6144个样本,其中图像2048张,文本2048张,图文对2048对。我们的模型训练的时候batch要比对比学习的模型小很多。

文章的总结 在本文中,提出了BEIT-3,一个通用的多模态基础模型,它在广泛的视觉和视觉语言基准上实现了最先进的性能。 BEIT-3的核心思想是将图像也理解为一种外语,这样我们就可以对图像、文本以及图像-文本对进行统一的mask-data的“语言”建模。 还展示了Multiway transformer可以有效地为帮助不同的视觉和视觉-语言任务进行模型的学习。 相比于其他的多模态的工作,BEIT-3要显得简单有效,是扩大多模态基础模型的一个有前途的方向。

99科技网:http://www.99it.com.cn

相关推荐
一加Ace Pro游戏表现圈粉,还是“不将就”的性能大咖 一加Ace Pro游戏表现圈粉,还是“不将就”的性能大咖

8月26日~28日高通在成都举办了首届骁龙嘉年华,不少消费者在嘉年华展区中体

快资讯2022-09-07

三大技术策略齐发,透露蚂蚁集团AI的“月亮与六便士” 三大技术策略齐发,透露蚂蚁集团AI的“月亮与六便士”

在一个名叫“元宇宙”的新世界,经济、政治、文化的生态将被重新构建,而新

快资讯2022-09-07

玖惠仓好不好?为什么做的人那么多?是区块链项目吗? 玖惠仓好不好?为什么做的人那么多?是区块链项目吗?

最近,玖惠仓这个名字在朋友圈里似乎非常的火,很多朋友即便没有参与但至少

快资讯2022-09-06

如何选择一款合适的奶粉?欧铂佳羊奶粉值得信赖 如何选择一款合适的奶粉?欧铂佳羊奶粉值得信赖

选奶粉,是不少新手妈妈在育儿道路上遇见的第一个拦路虎,奶粉品类多、牌子多

快资讯2022-09-06

论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加 论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加

Meta最近放出全新写作语言模型PEER,完全模拟人类写作过程,从打草稿到重复编

快资讯2022-09-06

三步并成一“布” ,智能助手的明日蓝图 三步并成一“布” ,智能助手的明日蓝图

文明始于工具。但是伴随科技的发展,当工具越来越多,人们的期待,却逐渐变

快资讯2022-09-06

AI驱动的自动化采购平台Fairmarkit获3560万美元C轮增资 AI驱动的自动化采购平台Fairmarkit获3560万美元C轮增资

因此,Fairmarkit数据显示,他们的客户通过Fairmarkit采购的支出,呈指数级增长。

快资讯2022-09-06

中国算力一张网布局初成,华为AI大模型时代来了 中国算力一张网布局初成,华为AI大模型时代来了

如果说算力决定了生产力,那么模型则是AI构建世界的各种建筑设计方案。

快资讯2022-09-06

ICLR Spotlight|Facebook提出无损INT8优化器,单机可以跑千亿参数模型了?? ICLR Spotlight|Facebook提出无损INT8优化器,单机可以跑千亿参数模型了??

2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大

快资讯2022-09-06

彼合彼方“以世界一流的爬壁技术,助力客户极限高危作业” 彼合彼方“以世界一流的爬壁技术,助力客户极限高危作业”

8月31日至9月5日,以服务合作促发展 绿色创新迎未来为主题的2022年中国国际服

快资讯2022-09-06