华为天才少年谢凌曦:关于视觉识别领域发展的个人观点(6)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
从孤立的setting向终身学习的统一。从学术界到工业界,必须抛弃“一次性交付模型”的思维,将交付内容理解为以模型为中心,配套有数据治理、模型维护、模型部署等多种功能的工具链。用工业界的话说,一个模型或者一套系统,在整个项目的生命周期中,必须得到完整的看护。必须考虑到,用户的需求是多变且不可预期的,今天可能会换个摄像头,明天可能会新增要检测的目标种类,等等。我们不追求AI能自主解决所有问题,但是AI算法应该有一个规范操作流程,让不懂AI的人能够遵循这个流程,新增他们想要的需求、解决平时遇到的问题,这样才能让AI真正平民化,解决实际问题。对于学术界,必须尽快定义出符合真实场景的终身学习setting,建立起相应的benchmark,推动这一方向的研究。
在域间差异明显的情况下,解决大数据和小样本的冲突。这又是CV和NLP的不同点:NLP已经基本不用考虑预训练和下游任务的域间差异性,因为语法结构和常见单词完全一样;而CV则必须假设上下游数据分布显著不同,以致于上游模型未经微调时,在下游数据中无法抽取底层特征(被ReLU等单元直接滤除)。因此,用小数据微调大模型,在NLP领域不是大问题(现在的主流是只微调prompt),但是在CV领域是个大问题。在这里,设计视觉友好的prompt也许是个好方向,但是目前的研究还没有切入核心问题。
方向3:无限细粒度视觉识别任务关于无限细粒度视觉识别(以及类似的概念),目前还没有很多相关的研究。所以,我以自己的思路来叙述这个问题。我在今年VALSE报告上,对已有方法和我们的proposal做了详细解读。以下我给出文字叙述,更详细的解读请参考我的专题文章或者我在VALSE上做的报告: https://zhuanlan.zhihu.com/p/54651 0418 https://zhuanlan.zhihu.com/p/555377882
首先,我要阐述无限细粒度视觉识别的含义。简单地说,图像中包含的语义信息非常丰富,但不具有明确的基本语义单元。只要人类愿意,就可以从一张图像中识别出越来越细粒度的语义信息(如下图所示);而这些信息,很难通过有限而规范的标注(即使花费足够多的标注成本),形成语义上完整的数据集,供算法学习。 即使如ADE20K这样的精细标注数据集,也缺少了大量人类能够识别的语义内容我们认为,无限细粒度视觉识别是比开放域视觉识别更难,也更加本质的目标。我们调研了已有识别方法,将其分为两类,即基于分类的方法和语言驱动的方法,并论述它们无法实现无限细粒度的理由。
基于分类的方法:这包括传统意义上的分类、检测、分割等方法,其基本特点是给图像中的每个基本语义单元(图像、box、mask、keypoint等)赋予一个类别标签。这种方法的致命缺陷在于,当识别的粒度增加时,识别的确定性必然下降,也就是说,粒度和确定性是冲突的。举例说,在ImageNet中,存在着“家具”和“电器”两个大类;显然“椅子”属于“家具”,而“电视机”属于“家电”,但是“按摩椅”属于“家具”还是“家电”,就很难判断——这就是语义粒度的增加引发的确定性的下降。如果照片里有一个分辨率很小的“人”,强行标注这个“人”的“头部”甚至“眼睛”,那么不同标注者的判断可能会不同;但是此时,即使是一两个像素的偏差,也会大大影响IoU等指标——这就是空间粒度的增加引发的确定性的下降。
99科技网:http://www.99it.com.cn
