AI模型的大一统！多模态领域乱杀的十二边形战士(3)

2022-09-07 09:58来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

在实验中BEIT-3随机屏蔽15%的单模文本的标记和50%的图像-文本对的文本标记。对于图像，我们使用像BEIT中那样的block-wise级别的掩膜策略来遮蔽40%的图像补丁。我们只使用一个预训练的模型，来与之前的工作进行更明显的训练效果对比。相比之下，以往的视觉-语言多模态模型通常采用多种预训练任务，如图像-文本对比，图文匹配，我们证明了一个更小的预训练模型，更小的batch size也可以用于自监督的图像恢复的训练任务。

基于对比学习的方法通常需要非常大的批规模进行预训练，这带来了更多的工程挑战，比如烧卡！烧GPU！

其实这里我想说的是CLIP，其实CLIP的效果确实非常炸裂，而且zero-short的特点也具有足够的卖点。但是确实强大的预训练模型就是CLIP狂妄的资本，如果脱离了预训练与数据的支撑，CLIP的思路是无法有效work的，从CLIP在MNIST数字识别的数据集上的效果我们大概也知道这种情况了。强大的预训练与数据集其实终究是饮鸠止渴，在强大的模型架构才是发展的第一顺位！

大模型，大爆炸

BEIT-3骨干网是继ViT-giant之后建立的一个巨型基础模型。所示，该模型由一个 40层的Multiway Transformer组成，其中隐藏尺寸为1408，中间尺寸为6144，注意力头为16。每一层都包含视觉支路和语言支路。视觉-语言支路也被在前三个Multiway Transformer层。自注意机制模块也在不同的模态中参与共享。

BEIT-3共包含1.9 Billion 参数，其中视觉专家参数 692M ，语言专家参数 692M ，视觉语言专家参数 52M ，共享自注意模块参数 317M 。

当和ViT-giant使用形同的图像尺度时会有1B的参数量被激活。

BEIT-3下表所示的单模态和多模态数据进行了训练。对于多模态数据，大约有15M幅图像和21M幅文本对，收集自五个公共数据集:Conceptual 12M (CC12M)， Conceptual Captions (CC3M) ， SBU Captions (SBU) ， COCO和Visual Genome (VG) 。

模型参数+训练数据参数

对于图像和文本的单模态数据，我们使用来自ImageNet-21K的14M图像和Wikipedia、BookCorpus 、OpenWebText3、CC-News和Stories的160GB英文文本语料库。我们预训练BEIT-3为1M步。每个batch共包含6144个样本，其中图像2048张，文本2048张，图文对2048对。我们的模型训练的时候batch要比对比学习的模型小很多。

文章的总结在本文中，提出了BEIT-3，一个通用的多模态基础模型，它在广泛的视觉和视觉语言基准上实现了最先进的性能。 BEIT-3的核心思想是将图像也理解为一种外语，这样我们就可以对图像、文本以及图像-文本对进行统一的mask-data的“语言”建模。还展示了Multiway transformer可以有效地为帮助不同的视觉和视觉-语言任务进行模型的学习。相比于其他的多模态的工作，BEIT-3要显得简单有效，是扩大多模态基础模型的一个有前途的方向。

99科技网：http://www.99it.com.cn

共4页:

相关推荐