Yann LeCun:语言的有限性决定了 AI 永远无法比肩人类智能
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
寻找人工智能中的常识(common sense)是比关注语言更重要的任务。 前段时间,谷歌工程师声称自家的 AI 聊天机器人 LaMDA 具有了意识,引发了一片混乱。 LaMDA 是一种大型语言模型(LLM),能够基于任何给定文本预测出可能出现的下一个单词。许多对话在某种程度上都很容易预测,所以这种系统可以推动并保持对话流畅地进行。LaMDA 在这一点上表现非常出色,以至于这位叫 Blake Lemoine 的工程师开始怀疑它产生了类人的知觉。 随着 LLM 越来越普遍,变得越来越强大,人类对 LLM 的看法也越发不同。的确,如今的系统已经超越了许多“常识”语言推理的基准,但很多系统仍然缺乏常识,很容易出现胡说八道、不合逻辑和危险的建议。所以这就引出了一个很矛盾的问题: 为什么这些系统如此地智能,同时又如此地具有局限性? 最近,图灵奖得主 Yann LeCun 与纽约大学的博士后研究员 Jacob Browning 在 Noema 杂志上共同发表了一篇文章,对这个问题给出了回答: 根本问题不在于 AI 本身,而是在于语言的有限性。 他给出了这样的论证: 1.语言只承载了人类全部知识的一小部分。
2.大部分人类知识和所有动物的知识都是非语言的(非象征性的)。
3.因此大型语言模型无法接近人类水平的智能。
显然,LeCun 认为我们应当摒弃关于语言与思维之间关系的旧假设,即语言与思维具有同一性。在他看来,这些语言系统天生就是「肤浅」的,即使是地球上最先进的 AI,也永远不可能获得人类所具有的全部思维。 这种观点实际上否认了图灵测试的有效性。图灵测试的基础是,如果一台机器说出它要说的一切,就意味着它知道自己在说什么,因为知道正确的句子以及何时使用这些句子会耗尽它们的知识。 LeCun 首先从语言哲学的角度谈起,来阐释图灵测试的思想基础及其不合理之处。
1、AI 并不理解自己在说什么
19 世纪和 20 世纪的语言哲学认为,“知道某事”就意味着能够想出一个正确的句子,并知道在我们所知的真理大网络中,它是如何与其他句子联系起来的。按照这种逻辑,理想的的语言形式便是一种数理逻辑的纯形式化语言,它由严格的推理规则连接的任意符号组成。但如果你愿意花点力气去消除歧义和不精确性,那使用自然语言也可以。 语言哲学家维特根斯坦曾说:“真命题的总和就构成了自然科学的整体。”长期以来,人们都深信,逻辑数学、形式化是语言的必要基础。在 AI 领域,这种立场的体现便是 符号主义 :我们所能知晓的一切都可以写在百科全书中,所以只要阅读所有内容就能让我们对所有事物都有全面的了解。在早期,这种根据逻辑规则以不同的方式将任意符号绑定在一起的操作成了人工智能的默认范式。 在这种范式下,AI 的知识就是由大量的真实语句数据库组成,这些句子通过人工逻辑相互连接起来。判断 AI 是否具有智能的标准,就是看它是否能在正确的时间“吐”出正确的句子,也就是看它能否以恰当的方式来操纵符号。这便是图灵测试的基础。 但 LeCun 认为,将人类专业知识提炼成一套规则和事实证明是非常困难、耗时且昂贵的。虽然为数学或逻辑编写规则很简单,但世界本身却是非常模棱两可的。 所以在 LLM 问题上,LeCun 并不认同图灵测试所基于的思想,他认为: 机器可以谈论任何事情,这并不意味着它理解自己在说什么。 因为语言并不会穷尽知识,相反,语言只是一种高度具体且非常有限的知识表征。无论是编程语言、符号逻辑还是自然语言,它们都具有特定类型的表征模式,都擅长在极高的抽象层次上表达离散的对象和属性以及它们之间的关系。 所有的表征模式都涉及对关于某事信息的压缩,但压缩所留下和遗漏的内容各不相同。语言的表征模式处理的是更具体的信息,例如描述不规则的形状、物体的运动、复杂机制的功能或绘画时细致入微的笔触,如果要描述一个冲浪事件时,还要考虑特定语境中的动作。 另外还有一些非语言的表征方式,它们可以用一种更易于理解的方式来传达信息,比如象征性的知识,包括图像、录音、图表和地图等等。在经过训练的神经网络中发现的分布式知识也是如此。
99科技网:http://www.99it.com.cn

近日,MetaAI发布了NLLB-200模型,宣布在200多种语言(其中有70%是低资源语言)上
快资讯2022-08-30