NLP,能辅助法官判案吗? | CCF C³(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
前文展示了“NLP+司法”的应用, 下面就NLP这项技术展开谈谈 。 在本部分正式开始前,先来看一段有趣的对话吧 (据说这是道外国人中文语言水平考试题) :
A:你这是什么意思?
B:没什么意思,意思意思。
A:你这样就没意思了。
B:哎呀,小意思,小意思。
A:你这人可真有意思。
B:哎呀,其实也没有别的意思。
A:那我就不好意思了。
B:是我不好意思。 请问这里的“意思”都是什么意思? (Doge) 其实,这里的“意思”二字可以看作一个符号,这个符号背后承载的信息非常丰富。
一词多义、多词一义等问题,本质上是形式和背后含义之间存在多对多的映射关系的问题,或者可以理解成在一个广阔空间内进行搜索的问题。
我们认为,怎么处理好这些关系,是自然语言处理的 最核心的困难 。 哈尔滨工业大学教授、人工智能研究院副院长 车万翔 如是说道。 但如果没有任何限制,在一个非常大的空间内进行搜索,其复杂性相当高。这个该怎么解决? 车教授介绍称,一般是用 “知识” 进行约束,这里打双引号的原因是:提到知识,一般会认为是某些规则、逻辑、符号知识;而这里指的是更广义的知识。 广义的知识 有多种分类法,这里主要将其分为 3种 来源。 其一,就是 狭义的知识 ,包括语言、常识 (很难从文本中挖到) 和世界知识 (可以从文本中挖到) ,世界知识可以拿知识图谱等来表示。 其二,是 算法 ,包括浅层学习、深度学习和NLP算法。 其三,是 数据 ,包括有标注的、无标注的数据和伪数据。当下爆火的预训练模型就使用了大量的未标注数据。 首先可通过未标注数据预训练一个模型;接着用语料库去精调这个模型,从而使目标模型变得更强大。 当下普遍认为,对于几乎所有AI系统,如果没有新的知识、算法或数据输入,这个系统本身很难提高。 当然也有人提出,怎么感觉有例外——比如DeepMind的AI棋手AlphaZero,就是通过自我博弈来学习精进的。 对此,车教授解释道,这种游戏场景比较特殊,因为它本身是一个封闭的系统,能够下棋的位置毕竟有限,且还有人为制定的胜负标准,所以在条条框框之下,机器自由发挥的空间并不算特别大。 但像NLP就不一样了,哪句话说得好,哪句话说得不好,其实没有一个明确的判定标准,这种情况下,左右博弈就没有奇效了。 说到这里,现在 NLP用到了知识、算法和数据,那NLP之后还会朝哪个方向发展?或者说,NLP下一步还会用到什么? 要回答这个问题,不妨先纵观一下人工智能自1956年诞生以来的发展简史。 (你就会发现一些有意思的规律) 上世纪50年代至上世纪90年代期间,主要关注的是小规模专家 知识 ;从上世纪90年代到2011年前后,更关注的是 算法 设计;从2010年到2017年,迎来了深度学习的热潮, 数据 的重要性愈发凸显。 而自2018年谷歌推出BERT至今, 大规模预训练模型 成了当下热词。 不难发现,此前,后一个阶段的时间几乎是前一阶段的一半,所以…… (手动狗头) 说回大规模预训练模型,车教授指出,当前 大模型的“同质化”趋势越来越明显 ,当然这可不是什么不好的事,我们 可以用“通用性”来理解 。 无论是 NLP 任务还是CV任务等,现在都有一套“万金油”模型: Transformer ,基本可以统一解决很多问题。
99科技网:http://www.99it.com.cn
