AI模型的大一统!多模态领域乱杀的十二边形战士(3)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
在实验中BEIT-3随机屏蔽15%的 单模文本 的标记和50%的 图像-文本对 的文本标记。对于图像,我们使用像BEIT中那样的block-wise级别的掩膜策略来遮蔽40%的图像补丁。我们只使用一个预训练的模型,来与之前的工作进行更明显的训练效果对比。相比之下,以往的视觉-语言多模态模型通常采用 多种预训练任务 ,如图像-文本对比,图文匹配,我们证明了一个更小的预训练模型,更小的batch size也可以用于自监督的图像恢复的训练任务。
基于对比学习的方法通常需要非常大的批规模进行预训练,这带来了更多的工程挑战,比如烧卡!烧GPU!
其实这里我想说的是CLIP,其实CLIP的效果确实非常炸裂,而且zero-short的特点也具有足够的卖点。但是确实强大的预训练模型就是CLIP狂妄的资本,如果脱离了预训练与数据的支撑,CLIP的思路是无法有效work的,从CLIP在MNIST数字识别的数据集上的效果我们大概也知道这种情况了。强大的预训练与数据集其实终究是饮鸠止渴,在强大的模型架构才是发展的第一顺位!
大模型,大爆炸BEIT-3骨干网是继ViT-giant之后建立的一个 巨型基础模型 。所示,该模型由一个 40层 的Multiway Transformer组成,其中隐藏尺寸为1408,中间尺寸为6144,注意力头为16。每一层都包含视觉支路和语言支路。视觉-语言支路也被在前三个Multiway Transformer层。自注意机制模块也在不同的模态中参与共享。
BEIT-3共包含1.9 Billion 参数,其中视觉专家参数 692M ,语言专家参数 692M ,视觉语言专家参数 52M ,共享自注意模块参数 317M 。
当和ViT-giant使用形同的图像尺度时会有1B的参数量被激活。
BEIT-3下表所示的单模态和多模态数据进行了训练。对于多模态数据,大约有15M幅图像和21M幅文本对,收集自五个公共数据集:Conceptual 12M (CC12M), Conceptual Captions (CC3M) , SBU Captions (SBU) , COCO和Visual Genome (VG) 。
模型参数+训练数据参数对于图像和文本的单模态数据,我们使用来自ImageNet-21K的14M图像和Wikipedia、BookCorpus 、OpenWebText3、CC-News和Stories的160GB英文文本语料库。我们预训练BEIT-3为1M步。每个batch共包含6144个样本,其中图像2048张,文本2048张,图文对2048对。我们的模型训练的时候batch要比对比学习的模型小很多。
文章的总结 在本文中,提出了BEIT-3,一个通用的多模态基础模型,它在广泛的视觉和视觉语言基准上实现了最先进的性能。 BEIT-3的核心思想是将图像也理解为一种外语,这样我们就可以对图像、文本以及图像-文本对进行统一的mask-data的“语言”建模。 还展示了Multiway transformer可以有效地为帮助不同的视觉和视觉-语言任务进行模型的学习。 相比于其他的多模态的工作,BEIT-3要显得简单有效,是扩大多模态基础模型的一个有前途的方向。99科技网:http://www.99it.com.cn

2018年GPT、BERT预训练模型的提出吹响了大模型“军备竞赛”冲锋的号角,一场大
快资讯2022-09-06
