NLP,能辅助法官判案吗? | CCF C³(4)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
对企业来说,投产比太高。 (即性价比太低) 他认同“超大模型可以提高相关技术领域天花板”的观点,就像前面提到的,把它作为一种范式是OK的。 刘聪还补充道,在教育、医疗、司法等场景下 (这很讯飞) ,模型的 可解释性 是至关重要的。 用大白话讲,就是要说清楚模型内部到底发生了什么,才产生出这样的结果,否则计算机通过模型给出的判定很难让人信服。 然而,现在很多千亿模型内部还处于“黑盒”状态,有些原理不仅是现在看不透,而且由于其庞大的体量和错综复杂的结构,以后也很难解释清楚。
大模型处理多模态数据的前景除了大模型的工业应用外,大模型处理多模态数据的前景也是个有意思的议题。 大家应该知道 (至少能意会到) ,人脑可以轻松处理多模态的数据,从中学习和解耦各种复杂信息,并且让各种模态的数据高度协同作用。 说人话,比如当俩人交谈时,除了说出来的言语,还有语气、语速、神态、肢体语言等也在传递着不同维度信息,就像有人说“好好好”可能是在真心夸赞,也可能是—— 读取并处理各种信息,对咱们聪明的大脑来说一般没啥问题,但是对于计算机,是否也能轻松解决? 哈工大 车万翔 教授表示,这 应该没有些人想象的那么困难 。 前面他用“同质化”一词形容了当今各个大模型的发展趋势,再说一次,这里的“同质化”不是贬义词—— 现在,文本、语音、图像都可以用 Transformer 这套东西来表示;反之,用Transformer能更容易地整合不同模态信息。所以,像“语音+文本+图像”这样的多模态预训练模型其实已经数不胜数了。 此外,例如DeepMind的Gato,足足在604个不同的任务上进行了训练,训练数据还包括游戏里的建模动画、模拟的机器人运用场景等。最终,这个“全才”AI不仅可以看图写话、和人类聊天,还可以把雅达利游戏玩得飞起,并且能操控机械臂。 清华 刘知远 教授补充道,他认为多模态模型的 “模态”可以更加多样化 ,例如用户行为就是一种值得大模型学习的数据。 他提到OpenAI今年发布的网页版GPT (WebGPT) ,可以把用户通过搜索引擎来回答问题的行为序列作为Transformer的输入,并对其训练,然后模型就学到了一个新技能——根据问题去网上搜索答案。 企业界这边,科大讯飞的 刘聪 指出,在应用场景中有刚需的多模态模型,公司会优先投入研发。 刘聪以 语音交互 问题举例:虽然在常规场景下,语音交互的技术已经相当成熟了;但是在车载、鸡尾酒会等嘈杂环境中,怎么判断某人正在对A还是B,在对人还是对机器说话? 在这种复杂的交互场景下,语音和视觉信息等结合,可以显著提升模型的准确性。 在大伙儿对多模态大模型积极表态之时, 刘康 研究员则提出了在科研过程中遇到的一个问题: 用Transformer这个万金油来建立各个模态之间的关联,看似是个近乎完美的方案,但实际极大的依赖于背后数据之间的关系。 举个简单的例子,数据之间是对应关系还是互补关系?比如,给出一段新闻数据,里面的图片可能是上下文讲述的内容,也可能是对文字的补充 (就像上面那个表情包) 。 所以,刘康研究员认为,除了模态种类还需多样化外,不同模态之间的逻辑关系也是未来值得研究的方向之一。他建议,把采集的数据映射到背后的知识库上,通过知识来处理各种模态的关系。
99科技网:http://www.99it.com.cn
