百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限(3)

2022-08-28 10:30来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

一是机器人等硬件控制中视觉对识别、定位与导航的重要作用（近年来如日中天的自动驾驶离不开视觉感知算法便是一个典型的例子）；二是清华自动化系早期有许多研究模式识别的学者，王井东的硕士导师张长水便是其中之一，而张长水的导师是中国科学院技术科学部委员（院士）常迥教授。

在王井东硕士期间，神经网络还没火，但他的导师张长水就已经在神经网络方向做了许多出色的工作。2000年，张长水与阎平凡合著出版了《人工神经网络与模拟进化计算》一书。张长水还曾邀请一些国外的学者到清华全英文讲授神经网络的前沿课程，王井东由此第一次了解到用来训练多层神经网络的反向传播算法及其工作机制。 2004年，王井东和同学李建国就在张长水、边肇祺的指导下，在人工智能国际顶会 ICML 上发表了“Probabilistic Tangent Subspace: A Unified View”一文。要知道，当时能在 ICML 之类顶会上留名的人，屈指可数。那时王井东在模式识别方向学到的许多知识，对他如今做研究仍有重要影响。例如，当时模式识别中一统天下的「核方法」（Kernel Method），如今虽然已经很少用于视觉研究，但「核方法的思想仍然存在于今天的深度学习中，人工智能领域现在用得比较多的Transformer架构在某种意义上也与之相关」。再如矩阵分析方法，如今被用在注意力加速的任务中，王井东本人也用矩阵分析来研究将平方级的复杂度变为线性的复杂度的方法，来优化速度。去了港科大读博后，王井东的直观体验到的一个变化是，与清华的实验室侧重机器学习不同，港科大的VisGraph实验室最大的特色是：应用。实验室的研究方向都是计算机视觉或计算机图形学。在这样的环境中，王井东对视觉的理解也有了更多新的思考。博士三年，王井东主要研究机器学习与计算机视觉，用图、半监督等方法处理图像分割问题。那时，虽然人在香港，但他与清华、微软亚研的伙伴都保持着密切的研究交流。2006年，王井东与沈向洋等微软研究员的合作（“Picture Collage”），以及他与张长水的工作（“Semi-Supervised Classification Using Linear Neighborhood Propagation”），就一同被视觉顶会 CVPR 2016 接收。当年的CVPR在美国纽约召开，王井东记得那时参会的中国学者已经不少。CVPR是六月举行。印象中，许多中国学者吃不惯西餐，于是他们一行人就汇集了来参会的中国学者和当时在国外的中国教授和学生，大家一起去找中餐馆吃饭、聊研究与参会的见闻。王井东是站在视觉腾飞的起点、并见证视觉在全球走向辉煌发展的一批研究者中的一员。在回忆中，他告诉雷峰网 AI掘金志，那时选择计算机视觉真的并不见得是一个明智的选择。从大的视角回看，王井东无疑是一个少数者，但一个人的生活并不触及太广的半径，所以对青年王井东来说，他在视觉研究上并不孤独。

99科技网：http://www.99it.com.cn

共7页: