深度学习红利见顶,AI“敢问路在何方”?潘云鹤、姚期智两院士支招(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
2012年,这块空白被神经网络所填补,人工智能发展进入第三阶段,此后发生的一切,大家便熟知了, 深度神经网络在视觉识别、听觉识别、文字识别、多媒体人工智能方面得到了极大突破 ,但同时也产生了很多缺点,比如不可解释的“黑盒”、大量需要标注的数据。
“这些缺点都和只采用数据而不采用知识有很大关系。”潘云鹤表示,现在人们常说AI的逻辑能力很难训练,但其实早期的AI逻辑能力很强,只是现在这一轮的深度神经网络技术没有这个能力,所以要将两者联合起来使用,他称之为“知识和数据共同驱动”的人工智能。
潘云鹤指出, 人工智能第四阶段是将数据和跨媒体智能、跨媒体知识表达相结合 ,对视觉的对象进行识别、分析和模拟,其中,开路先锋很可能就是视觉、文字等其他知识的多重知识表达,也即这两年技术上正在突破的多模态人工智能。
比如,此次大会讨论的中心“元宇 宙”,便是典型的跨媒体人工智能。元宇宙要同时模拟物理世界和人类社会,这需要人工智能不仅有大量的设备识别,还要大量的视觉生成。
潘云鹤以数字人为例解释,它不但要表现人的外观、动作、感知、人的认知能力,还要表现人的个性化数据,“ 数字人本身就是一个人的跨媒体知识表达,是元宇宙的难点 ”。
清华大学在“多模态学习”方面的研究也开展多时。上海期智研究院院长姚期智介绍,清华大学交叉信息研究院赵行研究组正在将多模态学习从理论推向实际应用,目前已经可以让AI根据配音脚本,自动生成与画面节奏同步的高质量配音。据了解,这项研究是利用视频中的嘴部运动控制生成语音的韵律,以达到语音和视频同步。
可喜的是,近年来,人工智能产学研协同的速度越来越快。据《IT时报》记者了解,腾讯已经将多模态融合应用于计算机视觉研究,为交通银行提供多个场景下的视觉AI解决方案,可快速处理用户上传图片不清晰、用户证件照片识别、资料印章模糊干扰、用户证件PS鉴伪等问题,从而提升银行交易流程效率,提升用户办理业务体验。
“
自动驾驶认不出“雪糕桶”
99科技网:http://www.99it.com.cn
