华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(2)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

根据上述分析，我们已经通过CV和NLP的差别，引出了CV的第一个基本困难，即语义稀疏性。而另外两个困难，域间差异性和无限粒度性，也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义，因而在采样不同域（即不同分布，如白天和黑夜、晴天和雨天等场景）时，采样结果（即图像像素）与域特性强相关，导致了域间差异性。同时，由于图像的基本语义单元很难定义（而文本很容易定义），且图像所表达的信息丰富多样，使得人类能够从图像中获取近乎无限精细的语义信息，远远超出当前CV领域任何一种评价指标所定义的能力，这就是无限粒度性。关于无限粒度性，我曾经写过一篇文章，专门讨论这个问题。 https://zhuanlan.zhihu.com/p/376145664 以上述三大基本困难为牵引，我们将业界近年来的研究方向总结如下：

语义稀疏性：解决方案为构建高效计算模型（神经网络）和视觉预训练。此处的主要逻辑在于，想要提升数据的信息密度，就必须假设数据的非均匀分布（信息论）并对其建模（即学习数据的先验分布）。目前，最为高效的建模方式有两类，一类是通过神经网络架构设计，来捕捉数据无关的先验分布（例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验）；一类是通过在大规模数据上的预训练，来捕捉数据相关的先验分布。这两个研究方向，也是视觉识别领域最为基础、受到关注最多的研究方向。

域间差异性：解决方案为数据高效的微调算法。根据以上分析，网络体量越大、预训练数据集体量越大，计算模型中存储的先验就越强。然而，当预训练域和目标域的数据分布具有较大差异时，这种强先验反而会带来坏处，因为信息论告诉我们：提升某些部分（预训练域）的信息密度，就一定会降低其他部分（预训练域没有包含的部分，即预训练过程中认为不重要的部分）的信息密度。现实中，目标域很可能部分或者全部落在没有包含的部分，导致直接迁移预训练模型的效果很差（即过拟合）。此时，就需要通过在目标域进行微调来适应新的数据分布。考虑到目标域的数据体量往往远小于预训练域，因而数据高效是必不可少的假设。此外，从实用的角度看，模型必须能够适应随时变化的域，因而终身学习是必须。

无限粒度性：解决方案为开放域识别算法。无限粒度性包含开放域特性，是更高的追求目标。这个方向的研究还很初步，特别是业界还没有能被普遍接受的开放域识别数据集和评价指标。这里最本质的问题之一，是如何向视觉识别中引入开放域能力。可喜的是，随着跨模态预训练方法的涌现（特别是2021年的CLIP），自然语言越来越接近成为开放域识别的牵引器，我相信这会是未来2-3年的主流方向。然而，我并不赞成在追求开放域识别的过程中，涌现出的各种zero-shot识别任务。我认为zero-shot本身是一个伪命题，世界上并不存在也不需要zero-shot识别方法。现有的zero-shot任务，都是使用不同方法，将信息泄露给算法，而泄露方式的千差万别，导致不同方法之间难以进行公平对比。在这个方向上，我提出了一种被称为按需视觉识别的方法，以进一步揭示、探索视觉识别的无限粒度性。

99科技网：http://www.99it.com.cn

共9页: