百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限(5)

2022-08-28 10:30来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

2014年，这个算法已经应用在必应的图像搜索和广告中，是第一个在商业产品中成功应用基于近邻图的最近邻搜索算法。后来，微软的许多产品包括网页搜索也采用了该算法作为核心组件。目前，许多商业搜索以及推荐产品都采用了基于近邻图的近似最近邻搜索算法。第二个七年

2014年，在多媒体搜索上研究多年后，王井东将目光投向了另一个发展正热的新方向——深度学习。事实上，据王井东回忆，早在2005年，他就已经试过用人工智能来解决实际问题。那一年，王井东还在香港读博时，他的一位清华师兄回国创业，将卷积神经网络（CNN）用于车牌识别，他在实习时也参与了其中。探索初期，王井东的主要工作是把深度学习算法的端到端（end-to-end）性质拓展到一些新的应用上。不过很快，他就发现了一个更重要的研究课题：视觉网络架构的设计。网络架构的设计是深度学习的核心问题之一。当时许多人都在思考：如何让神经网络变得更深。王井东从2015年开始，则思考利用神经网络解决分类以外的视觉问题。 2015年前后，视觉领域的普遍做法是使用图像分类的网络来解决分类以外的分割、检测、姿态估计等问题，如2012年的 AlexNet、2014年的 GoogleNet、2015年的ResNet等架构。但他发现，分类网络存在一个显而易见但始终未被提出的弊端：分类网络结构在学习高分辨率表示时，先将分辨率慢慢变小，然后通过上采样的方法在分割等任务中逐步从低分辨率恢复高分辨率，这种方法所获得的特征空间精度很低。对此，王井东提出了自己的疑问：能不能不降分辨率而保持高分辨率？能不能不依赖分类网络？那时大家未必没有同样的疑问，保持高分辨率的想法也并不复杂，但考虑到分类的网络已经训练得很好，用到其他任务中更容易训练，所以学术界与工业界都没有人迈出改变的一步。但是，不破不立，王井东心想，若能直接学习高分辨率的表示，一定能大幅改进视觉任务的解决。经过两三年的思路酝酿，2018年，王井东感到万事俱备，便领导团队开始着手设计一个学习高分辨率表示的通用视觉架构。2019年，HRNet在CVPR上横空出世，惊艳众人。它是王井东在视觉研究上的又一大高峰，引用数在短短三年内超过了3000次。论文地址： https://jingdongwang2017.gith ub.io/Pubs/TPAMI-HRNet.pdf HRNet不再沿用以往的分类架构从低分辨率恢复到高分辨率的设计规则，而是让高中低分辨率不停交互融合，使高分辨率可以获得低分辨率语义信息较强的表征，低分辨率可以获得高分辨率的空间精度比较强的表征，能够从头就保持高分辨率。同时，由于 HRNet不以分类任务出发点，所以也具有更强的通用性，广泛适用于分割、检测、姿态估计等位置敏感的一般视觉任务。这项工作发布以后，在学术界与工业界都引起了广泛的讨论。 HRNet与王井东之前所提出的网络架构看起来相似。从2015年开始，他就采用多路（ Multi-branch）方法设计出了DFN（Deeply-fused nets，深度融合网络）、IGC（Interleaved Group Convolution，交错组卷积）等视觉网络架构，HRNet 也同样采用了多路方法，所以有相通之处，但本质上，HRNet展示了一种研究思维上的转变。后来，HRNet视觉网络架构被微软在内的许多公司采用，拿去解决实际问题，如自动驾驶、3D点云识别、人体姿态估计、卫星图像分割、OCR表单识别与检测等等。可以说，HRNet兼顾了学术研究突破的优雅与解决实际问题的效用，是仰望天空，也是脚踏实地。可以说，王井东虽然身处产业界，但并不受实际问题的约束。相反，他的例子证明，在工业界，杰出的研究者也能有科研上的创新，「工程师」也能成为「科学家」。他入选 2022 年 IEEE Fellow 的理由，就是对视觉内容理解与检索的杰出贡献。截至发稿，王井东一共有6篇谷歌学术引用过千的论文，但他谈道：「在企业做研究，我们都是围绕实际问题出发，在解决问题的过程提出新的方法、新的思路。我更享受我的研究能够解决实际的问题。」他还提到，在计算机视觉领域，近年来许多伟大的工作都是来源于工业界，而不是学术界。这说明，视觉领域的研究，也包含所谓的「感知智能」，要取得大的突破，必须要与实际的应用问题紧密结合，用实际需求指导学术研究。

99科技网：http://www.99it.com.cn

共7页: