华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(6)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

从孤立的setting向终身学习的统一。从学术界到工业界，必须抛弃“一次性交付模型”的思维，将交付内容理解为以模型为中心，配套有数据治理、模型维护、模型部署等多种功能的工具链。用工业界的话说，一个模型或者一套系统，在整个项目的生命周期中，必须得到完整的看护。必须考虑到，用户的需求是多变且不可预期的，今天可能会换个摄像头，明天可能会新增要检测的目标种类，等等。我们不追求AI能自主解决所有问题，但是AI算法应该有一个规范操作流程，让不懂AI的人能够遵循这个流程，新增他们想要的需求、解决平时遇到的问题，这样才能让AI真正平民化，解决实际问题。对于学术界，必须尽快定义出符合真实场景的终身学习setting，建立起相应的benchmark，推动这一方向的研究。

在域间差异明显的情况下，解决大数据和小样本的冲突。这又是CV和NLP的不同点：NLP已经基本不用考虑预训练和下游任务的域间差异性，因为语法结构和常见单词完全一样；而CV则必须假设上下游数据分布显著不同，以致于上游模型未经微调时，在下游数据中无法抽取底层特征（被ReLU等单元直接滤除）。因此，用小数据微调大模型，在NLP领域不是大问题（现在的主流是只微调prompt），但是在CV领域是个大问题。在这里，设计视觉友好的prompt也许是个好方向，但是目前的研究还没有切入核心问题。

方向3：无限细粒度视觉识别任务

关于无限细粒度视觉识别（以及类似的概念），目前还没有很多相关的研究。所以，我以自己的思路来叙述这个问题。我在今年VALSE报告上，对已有方法和我们的proposal做了详细解读。以下我给出文字叙述，更详细的解读请参考我的专题文章或者我在VALSE上做的报告： https://zhuanlan.zhihu.com/p/54651 0418 https://zhuanlan.zhihu.com/p/555377882

首先，我要阐述无限细粒度视觉识别的含义。简单地说，图像中包含的语义信息非常丰富，但不具有明确的基本语义单元。只要人类愿意，就可以从一张图像中识别出越来越细粒度的语义信息（如下图所示）；而这些信息，很难通过有限而规范的标注（即使花费足够多的标注成本），形成语义上完整的数据集，供算法学习。即使如ADE20K这样的精细标注数据集，也缺少了大量人类能够识别的语义内容

我们认为，无限细粒度视觉识别是比开放域视觉识别更难，也更加本质的目标。我们调研了已有识别方法，将其分为两类，即基于分类的方法和语言驱动的方法，并论述它们无法实现无限细粒度的理由。

基于分类的方法：这包括传统意义上的分类、检测、分割等方法，其基本特点是给图像中的每个基本语义单元（图像、box、mask、keypoint等）赋予一个类别标签。这种方法的致命缺陷在于，当识别的粒度增加时，识别的确定性必然下降，也就是说，粒度和确定性是冲突的。举例说，在ImageNet中，存在着“家具”和“电器”两个大类；显然“椅子”属于“家具”，而“电视机”属于“家电”，但是“按摩椅”属于“家具”还是“家电”，就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”，强行标注这个“人”的“头部”甚至“眼睛”，那么不同标注者的判断可能会不同；但是此时，即使是一两个像素的偏差，也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。

99科技网：http://www.99it.com.cn

共9页: