华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(7)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

语言驱动的方法：这包括CLIP带动的视觉prompt类方法，以及存在更长时间的visual grounding问题等，其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引入，确实增强了识别的灵活性，并带来了天然的开放域性质。然而语言本身的指代能力有限（想象一下，在一个具有上百人的场景中指代某个特定个体），无法满足无限细粒度视觉识别的需要。归根结底，在视觉识别领域，语言应当起到辅助视觉的作用，而已有的视觉prompt方法多少有些喧宾夺主的感觉。

上述调研告诉我们，当前的视觉识别方法并不能达到无限细粒度的目标，而且在走向无限细粒度的路上还会遭遇难以逾越的困难。因此，我们我们想分析人是如何解决这些困难的。首先，人类在大多数情况下并不需要显式地做分类任务：回到上述例子，一个人到商场里买东西，不管商场把“按摩椅”放在“家具”区还是“家电”区，人类都可以通过简单的指引，快速找到“按摩椅”所在的区域。其次，人类并不仅限于用语言指代图像中的物体，可以使用更灵活的方式（如用手指向物体）完成指代，进而做更细致的分析。结合这些分析，要达到无限细粒度的目标，必须满足以下三个条件。

开放性：开放域识别，是无限细粒度识别的一个子目标。目前看，引入语言是实现开放性的最佳方案之一。

特异性：引入语言时，不应被语言束缚，而应当设计视觉友好的指代方案（即识别任务）。

可变粒度性：并非总是要求识别到最细粒度，而是可以根据需求，灵活地改变识别的粒度。

在这三个条件的牵引下，我们设计出了按需视觉识别任务。与传统意义上的统一视觉识别不同，按需视觉识别以request为单位进行标注、学习和评测。当前，系统支持两类request，分别实现了从instance到semantic的分割、以及从semantic到instance的分割，因而两者结合起来，就能够实现任意精细程度的图像分割。按需视觉识别的另一个好处在于，在完成任意数量的request之后停止下来，都不会影响标注的精确性（即使大量信息没有被标注出来），这对于开放域的可扩展性（如新增语义类别）有很大的好处。具体细节，可以参看按需视觉识别的文章（链接见上文）。统一视觉识别和按需视觉识别的对比在完成这篇文章之后，我还在不断思考，按需视觉识别对于其他方向的影响是什么。这里提供两个观点：

按需视觉识别中的request，本质上是一种视觉友好的prompt。它既能够达到询问视觉模型的目的，又避免了纯语言prompt带来的指代模糊性。随着更多类型的request被引入，这个体系有望更加成熟。

99科技网：http://www.99it.com.cn

共9页: