主页 > 快资讯 > 正文

NLP，能辅助法官判案吗？ | CCF C³(2)

2022-08-25 12:25来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

复制网址

NLP的进展与挑战

前文展示了“NLP+司法”的应用，下面就NLP这项技术展开谈谈。在本部分正式开始前，先来看一段有趣的对话吧（据说这是道外国人中文语言水平考试题）：

A：你这是什么意思？
B：没什么意思，意思意思。
A：你这样就没意思了。
B：哎呀，小意思，小意思。
A：你这人可真有意思。
B：哎呀，其实也没有别的意思。
A：那我就不好意思了。
B：是我不好意思。请问这里的“意思”都是什么意思？（Doge）其实，这里的“意思”二字可以看作一个符号，这个符号背后承载的信息非常丰富。

一词多义、多词一义等问题，本质上是形式和背后含义之间存在多对多的映射关系的问题，或者可以理解成在一个广阔空间内进行搜索的问题。

我们认为，怎么处理好这些关系，是自然语言处理的最核心的困难。哈尔滨工业大学教授、人工智能研究院副院长车万翔如是说道。但如果没有任何限制，在一个非常大的空间内进行搜索，其复杂性相当高。这个该怎么解决？车教授介绍称，一般是用 “知识” 进行约束，这里打双引号的原因是：提到知识，一般会认为是某些规则、逻辑、符号知识；而这里指的是更广义的知识。广义的知识有多种分类法，这里主要将其分为 3种来源。其一，就是狭义的知识，包括语言、常识（很难从文本中挖到）和世界知识（可以从文本中挖到），世界知识可以拿知识图谱等来表示。其二，是算法，包括浅层学习、深度学习和NLP算法。其三，是数据，包括有标注的、无标注的数据和伪数据。当下爆火的预训练模型就使用了大量的未标注数据。首先可通过未标注数据预训练一个模型；接着用语料库去精调这个模型，从而使目标模型变得更强大。当下普遍认为，对于几乎所有AI系统，如果没有新的知识、算法或数据输入，这个系统本身很难提高。当然也有人提出，怎么感觉有例外——比如DeepMind的AI棋手AlphaZero，就是通过自我博弈来学习精进的。对此，车教授解释道，这种游戏场景比较特殊，因为它本身是一个封闭的系统，能够下棋的位置毕竟有限，且还有人为制定的胜负标准，所以在条条框框之下，机器自由发挥的空间并不算特别大。但像NLP就不一样了，哪句话说得好，哪句话说得不好，其实没有一个明确的判定标准，这种情况下，左右博弈就没有奇效了。说到这里，现在 NLP用到了知识、算法和数据，那NLP之后还会朝哪个方向发展？或者说，NLP下一步还会用到什么？要回答这个问题，不妨先纵观一下人工智能自1956年诞生以来的发展简史。（你就会发现一些有意思的规律）上世纪50年代至上世纪90年代期间，主要关注的是小规模专家知识；从上世纪90年代到2011年前后，更关注的是算法设计；从2010年到2017年，迎来了深度学习的热潮，数据的重要性愈发凸显。而自2018年谷歌推出BERT至今，大规模预训练模型成了当下热词。不难发现，此前，后一个阶段的时间几乎是前一阶段的一半，所以…… （手动狗头）说回大规模预训练模型，车教授指出，当前大模型的“同质化”趋势越来越明显，当然这可不是什么不好的事，我们可以用“通用性”来理解。无论是 NLP 任务还是CV任务等，现在都有一套“万金油”模型： Transformer ，基本可以统一解决很多问题。

99科技网：http://www.99it.com.cn

共6页: