主页 > 快资讯 > 正文

谷歌、MIT「迭代共同认证」视频问答模型：SOTA性能，算力少用80%

2022-09-15 13:52来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

磐创AI分享

转自 | 磐创AI

编辑 |David

【导读】谷歌、MIT联合研究，视频问答模型计算效率提升一倍。视频是一种无处不在的媒体内容源，涉及到人们日常生活的许多方面。越来越多的现实世界的视频应用，如视频字幕、内容分析和视频问答（VideoQA），都依赖于能够将视频内容与文本或自然语言联系起来的模型。

其中，视频问答模型尤其具有挑战性，因为它需要同时掌握语义信息，比如场景中的目标，以及时间信息，比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。此外，由于视频有许多帧，处理全部的帧来学习时空信息，可能在计算上成本过高。论文链接： https://arxiv.org/pdf/2208.00934.pdf 为了解决这个问题，在「Video Question Answering with Iterative Video-Text Co-Tokenization」一文中，谷歌和MIT的研究人员介绍了一种视频-文本学习的新方法，称为「迭代共同标记」，能够有效地融合空间、时间和语言信息，用于视频问答的信息处理。这种方法是多流的，用独立的骨干模型处理不同规模的视频，产生捕捉不同特征的视频表示，例如高空间分辨率或长时间的视频。模型应用「共同认证」模块，从视频流与文本的融合中学习有效表示。模型计算效率很高，只需67GFLOPs，比以前的方法至少低了50%，同时比其他SOTA的模型有更好的性能。

视频-文本迭代

该模型的主要目标是从视频和文本（即用户问题）中产生特征，共同允许它们的相应输入进行互动。第二个目标是以有效的方式做到这一点，这对视频来说非常重要，因为它们包含几十到几百帧的输入。
该模型学会了将视频-语言的联合输入标记为较小的标记集，以联合和有效地代表两种模式。在标记化时，研究人员使用两种模式来产生一个联合的紧凑表示，该表示被送入一个转换层以产生下一级的表示。这里的一个挑战，也是跨模态学习中的典型问题，就是视频帧往往并不直接对应于相关的文本。研究人员通过增加两个可学习的线性层来解决这个问题，在标记化之前，统一视觉和文本特征维度。这样一来，研究人员就可以让视频和文本都能制约视频标记的学习方式。此外，单一的标记化步骤不允许两种模式之间的进一步互动。为此，研究人员使用这个新的特征表示与视频输入特征互动，并产生另一组标记化的特征，然后将其送入下一个转化器层。这个迭代过程中会创建新的特征或标记，表示对两种模式的联合表示的不断完善。最后，这些特征被输入到生成文本输出的解码器中。按照视频质量评估的惯例，在对个别视频质量评估数据集进行微调之前，研究人员对模型进行预训练。在这项工作中，研究人员使用基于语音识别的文本自动注释的视频，使用HowTo100M数据集，而不是在大型VideoQA数据集上预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频-文本特征。

99科技网：http://www.99it.com.cn

共3页:
上一页
1
2
3
下一页

相关推荐

上市即巅峰！连年亏损、竞争加剧，格灵深瞳难破盈利困局
在过去几年中，在人工智能风口下，涌现出无数AI独角兽，商汤、旷视、云从、

快资讯2022-09-15

谷歌用新AI超越自己：让Imagen能够指定生成对象，风格还能随意转换
给Imagen加上“指哪打哪”的能力，会变得有多强？

快资讯2022-09-15

斯坦福李飞飞团队新研究登Nature子刊：实现可信AI，数据的设计、完善、评估是关键
在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下，数据的质量变

快资讯2022-09-15

斯坦福李飞飞团队新研究登 Nature 子刊：实现可信 AI，数据的设计、完善、评估是关键
数据的设计、完善、评估三大步骤是关键。

快资讯2022-09-15

流血、止血、再造血，AI独角兽们何时涅槃？
资本市场对它们的期待值并不算高，叠加业内竞争的加剧，各个AI公司的生存处

快资讯2022-09-15

MIT用GPT-3冒充哲学家，竟骗过了一大半专家
Daniel Dennett是一位哲学家，最近他有了一个「AI替身」。

快资讯2022-09-15

岂止DALL·E！现在AI画家都会建模、做视频了，以后会什么简直不敢想
特斯拉前AI总监点赞！这个开源AI艺术创作模型，想要开启「人机合作」艺术创

快资讯2022-09-15

鹭岛金服平台案件新进展：新增7万回款、新冻结资金30万
鹭岛金服鹭岛金服清退回款官方指定网址【www.qdg18.cc】，官方指定QQ群【662-0

快资讯2022-09-14

来鑫财富最新清退消息2022：新通知来了、回款有希望官方保障清退顺利进行、兑付唯一渠道即将开启
来鑫财富来鑫财富清退回款官方指定网址【www.qdg18.cc】，官方指定QQ群【662-0

快资讯2022-09-14

成功的定位要做什么？定位专家顾均辉：以云澜湾、雄正为例
企业定位主要有三大方法：抢先定位、关联定位和重新定位，每种方法适用的企

快资讯2022-09-13

头条资讯

元宇宙概念为何爆发，互联网技术枯竭

音乐对顾客心理的影响

县级加盟什么店挣钱？

加盟雪丰建材需要什么条件？

未来经济发展的趋势？

推荐资讯

win7系统应用程序提示0x00000010错误怎么解决方法

OPPO,Vivo,华为，小米，哪个手机和智能手表更胜一筹？

在小县城开一家什么店比较赚钱?

在县城，做什么项目能挣大钱？

未来价值投资在哪里，未来经济世界又有着怎样的联系？

最近更新

买「数字藏品」的年轻人：有人赚10万，有人被套牢

别骗人了由nft推动的游戏哪里来的互操作性?

大厂排兵布阵NFT详情

阿波罗最新兑付消息：2022回款打算敲定，全额清退不是问题（兑付慎重受骗）

长投学堂最新兑付消息：2022年平台曝光兑付细节,让你全程无忧（协会动态）