百度计算机视觉首席科学家王井东:在视觉的竞技场,研究与落地没有明显的界限(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
微软十四年:视觉技术落地
2007年,王井东博士毕业,回到了北京,加入微软亚洲研究院。 王井东将他在微软亚研的研究分为两个阶段,也就是「7+7」(王井东一共在微软亚研工作了十四年):第一个七年,他主要研究计算机视觉在多媒体搜索的应用;第二个七年,他的研究则聚焦在了深度学习和计算机视觉核心问题上。
第一个七年2007年,多媒体搜索刚刚展示出需求与轮廓,当时的必应还是一个尚待开发的业务,沈向洋被分派到必应的研发团队负责技术。由于擅长计算机视觉,王井东被派去了解决多媒体搜索中的图像检索难题。 那时图像搜索功能不尽如人意,如果用户想搜索一张「蓝天白云下,一只狗卧在绿色的草地上」的图像,在搜索栏里敲下这样一串文字时,搜索引擎大概率无法理解用户的搜索意图。为了解决这个问题,他与团队研发了基于草图的图像检索技术和开发一个用户交互的工具:用户可以画一个颜色草图,如用绿色来表达草地这一搜索意图,相比纯文本搜索方法取得了明显的效果提升。 这个思路并不新,早在上世纪就有基于草图的多媒体搜索方法,但用在商业搜索引擎上还是第一次。 王井东的一个体会是,在企业做研究,只有更好,没有最好。就拿上述这个例子来说,第一代用户交互方式还是繁琐,为了更简化,他和团队又继续开发了一种颜色过滤器来使用户交互更加简单:例如,如果你希望图片中的狗是蓝色的,那么就可以设置颜色筛选来获得包含蓝色的狗的图片。这项功能至今仍被应用于必应中。 围绕图像搜索,王井东从应用转向基础关键算法研究,取得了更大的成绩。 在搜索中,一个图像(即一个查询项)通常会被转化为一个向量,数据库中包含着成百上千亿的向量,如何快速搜索就成了一个问题。自2009年起,王井东开始研究搜索应用中的基础问题之一近似最近邻算法(Approximate Nearest Neighbor,ANN)。 ANN搜索的目标是在一个定义的距离度量下,从数据库中寻找出离查询项的距离最近项。王井东观察到一个有趣的事实:如果一个向量靠近查询项的向量,那么这个向量的相邻向量也可能靠近查询项的向量。这个思路跟「六度分割理论」(小世界理论)类似,即世界上任何互不相识的两人,只需要很少的中间人就能够建立起联系。 受此启发,王井东设计了一种ANN搜索算法,以近邻图(Neighborhood Graph)作为索引来进行图像搜索。结果,该算法带来的搜索效果非常惊艳。王井东回忆,当时他还以为是测试出了问题,连忙又重复核查了一下,最终他惊喜地发现,这个办法比当时号称效果最佳的其他同样基于kd-trees的方法要好很多。
99科技网:http://www.99it.com.cn
