华为天才少年谢凌曦：关于视觉识别领域发展的个人观点(8)

2022-09-13 12:29来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

按需视觉识别，提供了在形式上统一各种视觉任务的可能性。例如，分类、检测、分割等任务，在这一框架下得到了统一。这一点可能对视觉预训练带来启发。目前，视觉预训练和下游微调的边界并不清楚，预训练模型究竟应该适用于不同任务，还是专注于提升特定任务，尚无定论。然而，如果出现了形式上统一的识别任务，那么这个争论也许就不再重要。顺便说，下游任务在形式上的统一，也是NLP领域享有的一大优势。

在上述方向之外

我将CV领域的问题分为三大类：识别、生成、交互，识别只是其中最简单的问题。关于这三个子领域，简要的分析如下：

在识别领域，传统的识别指标已经明显过时，因此人们需要更新的评价指标。目前，在视觉识别中引入自然语言，是明显且不可逆的趋势，但是这样还远远不够，业界需要更多任务层面的创新。

生成是比识别更高级的能力。人类能够轻易地识别出各种常见物体，但是很少有人能够画出逼真的物体。从统计学习的语言上说，这是因为生成式模型需要对联合分布 p(x,y) 进行建模，而判别式模型只需要对条件分布 p(y|x) 进行建模：前者能够推导出后者，而后者不能推导出前者。从业界的发展看，虽然图像生成质量不断提升，但是生成内容的稳定性（不生成明显非真实的内容）和可控性仍有待提升。同时，生成内容对于识别算法的辅助还相对较弱，人们还难以完全利用虚拟数据、合成数据，达到和真实数据训练相媲美的效果。对于这两个问题，我们的观点都是，需要设计更好、更本质的评价指标，以替代现有的指标（生成任务上替代FID、IS等，而生成识别任务需要结合起来，定义统一的评价指标）。

1978年，计算机视觉先驱David Marr设想，视觉的主要功能，在于建立环境的三维模型，并且在交互中学习知识。相比于识别和生成，交互更接近人类的学习方式，但是现在业界的研究相对较少。交互方向研究的主要困难，在于构建真实的交互环境——准确地说，当前视觉数据集的构建方式来源于对环境的稀疏采样，但交互需要连续采样。显然，要想解决视觉的本质问题，交互是本质。虽然业界已经有了许多相关研究（如具身智能），但是还没有出现通用的、任务驱动的学习目标。我们再次重复计算机视觉先驱David Marr提出的设想：视觉的主要功能，在于建立环境的三维模型，并且在交互中学习知识。计算机视觉，包括其他AI方向，都应该朝着这个方向发展，以走向真正的实用。

总之，在不同子领域，单纯依靠统计学习（特别是深度学习）的强拟合能力的尝试，都已经走到了极限。未来的发展，一定建立在对CV更本质的理解上，而在各种任务上建立更合理的评价指标，则是我们需要迈出的第一步。

99科技网：http://www.99it.com.cn

共9页: