谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
高效视频问答的实现
研究人员将视频语言迭代共同认证算法应用于三个主要的VideoQA基准,MSRVTT-QA、MSVD-QA和IVQA,并证明这种方法比其他最先进的模型取得了更好的结果,同时模型不至于过大。 另外,迭代式共同标记学习在视频-文本学习任务上对算力的需求也更低。该模型只用67GFLOPS算力,是3D-ResNet视频模型和文本时所需算力(360GFLOP)的六分之一,是X3D模型效率的两倍多。并且生成了高度准确的结果,精度超过了最先进的方法。
多流视频输入
对 于VideoQA或其他一些涉及视频输入的任务,研 究人员发现,多流输入对于更准确地回答有关空间和时间关系的问题很重要。研究人员利用三个不同分辨率和帧率的视频流:一个低分辨率、高帧率的输入视频流(每秒32帧,空间分辨率64x64,记作32x64x64);一个高分辨率、低帧率的视频(8x224x224);以及一个介于两者之间的(16x112x112)。 尽管有三个数据流需要处理的信息显然更多,但由于采用了迭代共同标记方法,获得了非常高效的模型。同时,这些额外的数据流允许提取最相关的信息。 例如,如下图所示,与特定活动相关的问题在分辨率较低但帧率较高的视频输入中会产生较高的激活,而与一般活动相关的问题可以从帧数很少的高分辨率输入中得到答案。 这种算法的另一个好处是,标记化会根据所问问题的不同而改变。
结论
研究人员提出了一种新的视频语言学习方法,它侧重于跨视频-文本模式的联合学习。 研究人员解决了视频问题回答这一重要而具有挑战性的任务。 研究人员的方法既高效又准确,尽管效率更高,但却优于目前最先进的模型。谷歌研究人员的方法模型规模适度,可以通过更大的模型和数据获得进一步的性能改进。研究人员希望,这项工作能引发视觉语言学习方面的更多研究,以实现与基于视觉的媒体的更多无缝互动。
99科技网:http://www.99it.com.cn

来鑫财富 来鑫财富清退回款官方指定网址【www.qdg18.cc】,官方指定QQ群【662-0
快资讯2022-09-14
