主页 > 快资讯 > 正文

华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(4)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

可解释性是一个很重要的研究方向，但是我个人对于深度神经网络的可解释性持悲观态度。NLP的成功，也不是建立在可解释性上，而是建立在过拟合大规模语料库上。对于真正的AI来说，这可能不是太好的信号。

方向1b：视觉预训练

作为如今CV领域炙手可热的方向，预训练方法被寄予厚望。在深度学习时代，视觉预训练可以分为有监督、无监督、跨模态三类，大致叙述如下：

有监督预训练的发展相对清晰。由于图像级分类数据最容易获取，因此早在深度学习爆发之前，就有了日后奠定深度学习基础的ImageNet数据集，并被沿用至今。ImageNet全集超过1500万的数据规模，至今没有被其他非分类数据集所超越，因此至今仍是有监督预训练上最常用的数据。另外一个原因，则是图像级分类数据引入了较少bias，因而对于下游迁移更加有利——进一步减少bias，就是无监督预训练。

无监督预训练，则经历了曲折的发展历程。从2014年开始，出现了第一代基于几何的无监督预训练方法，如根据patch位置关系、根据图像旋转等进行判断，同时生成式方法也在不断发展（生成式方法可以追溯到更早的时期，此处不赘述）。此时的无监督预训练方法，还显著地弱于有监督预训练方法。到了2019年，对比学习方法经过技术改进，首次显现出在下游任务上超越有监督预训练方法的潜力，无监督学习真正成为CV界关注的焦点。而2021年开始，视觉transformer的兴起催生了一类特殊的生成式任务即MIM，它逐渐成为统治性方法。

除了纯粹的有监督和无监督预训练，还有一类介于两者之间的方法，是跨模态预训练。它使用弱配对的图像和文本作为训练素材，一方面避免了图像监督信号带来的bias，一方面又比无监督方法更能学习弱语义。此外，在transformer的加持下，视觉和自然语言的融合也更自然、更合理。

基于上述回顾，我做出如下判断：

从实际应用上看，应该将不同的预训练任务结合起来。也就是说，应当收集混合数据集，其中包含少量有标签数据（甚至是检测、分割等更强的标签）、中量图文配对数据、大量无任何标签的图像数据，并且在这样的混合数据集上设计预训练方法。

从CV领域看，无监督预训练是最能体现视觉本质的研究方向。即使跨模态预训练给整个方向带来了很大的冲击，我依然认为无监督预训练非常重要，必须坚持下去。需要指出，视觉预训练的思路很大程度上受到了自然语言预训练的影响，但是两者性质不同，因而不能一概而论。尤其是，自然语言本身是人类创造出来的数据，其中每个单词、每个字符都是人类写下来的，天然带有语义，因此从严格意义上说，NLP的预训练任务不能被视为真正的无监督预训练，至多算是弱监督的预训练。但是视觉不同，图像信号是客观存在、未经人类处理的原始数据，在其中的无监督预训练任务一定更难。总之，即使跨模态预训练能够在工程上推进视觉算法，使其达到更好的识别效果，视觉的本质问题还是要靠视觉本身来解决。

99科技网：http://www.99it.com.cn

共9页: