薛定谔的 AI 大模型:箱子暂不能打开,但钱还要继续「烧」(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
近年来,国内外的科技大厂在对外宣传 AI 研发实力的声音中,总有一个高频的词汇出现:大模型(Big Model)。 这场竞争开始于国外的科技巨头。2018 年谷歌推出大规模预训练语言模型 BERT 拉开大模型的帷幕后,OpenAI相继于 2019 年与 2020 年推出 GPT-2、GPT-3;2021 年,谷歌又不甘落后,推出在参数量上压倒前者的 Switch Transformer…… 所谓模型的大小,主要的衡量指标就是模型参数量的规模。模型的「大」,指的就是庞大的参数量。 例如,BERT 的参数量在2018年首次达到 3 亿参数量,在机器阅读理解顶级水平测试 SQuAD1.1 的两个衡量指标上全面超越人类,并在 11 种不同的 NLP 测试中达到 SOTA 表现,包括将 GLUE 基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%),展示出了参数量增大对 AI 算法性能提升的威力。 OpenAI 先后推出的 GPT-2 参数量达到 15 亿,GPT-3 的参数量首次突破千亿,达到 1750 亿。而谷歌在 2021 年 1 月发布的 Switch Transformer,更是首次达到万亿,参数量为 1.6 万亿。 面对这如火如荼的局面,国内大厂、甚至政府资助成立的研究机构也纷纷不甘落后,先后推出他们在炼大模型上的成果:2021年4月,阿里达摩院发布中文预训练语言模型「PLUG」,参数量 270 亿;4月,华为与鹏城实验室联合发布「盘古α」,参数量 2000 亿;6月,北京智源人工智能研究院发布「悟道2.0」,参数量 1.75 万亿;9月,百度发布中英双语模型 PLATO-X,参数量百亿。 到去年 10 月,阿里达摩院发布「M6-10T」,参数量已经达到 10 万亿,是中国目前规模最大的 AI 大模型。虽然比不上阿里,但百度在追求模型的参数量上也不甘落后,联合鹏城实验室发布了「百度·文心」,参数量 2600 亿,比 PLATO-X 大了 10 倍。 此外,腾讯也称他们研发了大模型「派大星」,但参数量级不明。除了普遍受大家关注的 AI 研发大厂,国内的大模型研发主力中还包括了算力提供商浪潮,他们在去年 10 月发布了大模型「源1.0」,参数量达到 2457 亿。总而言之,2021 年可以称为中国的「大模型元年」。 到今年,大模型继续火热。最开始,大模型是集中在计算语言领域,但如今也已逐渐拓展到视觉、决策,应用甚至覆盖蛋白质预测、航天等等重大科学问题,谷歌、Meta、百度等等大厂都有相应的成果。一时间,参数量低于 1 亿的 AI 模型已经没有声量。 毫无疑问,无论是性能超越还是任务拓展,AI 大模型都展示出了内在的潜力,给学术界与工业界带来无限的想象空间。 有研究实验表明,数据量与参数量的增大能够有效提升模型解决问题的精确度。以谷歌2021年发布的视觉迁移模型 Big Transfer 为例,分别使用 1000 个类别的 128 万张图片和 18291 个类别的 3 亿张图片两个数据集进行训练,模型的精度能够从 77% 提升到 79%。 再拿今年谷歌推出的 5400 亿参数单向语言模型 PaLM 来说,它基于谷歌今年发布的新一代 AI 框架 Pathways,不仅在微调方面超越了 1750 亿参数的 GPT-3,而且推理能力大幅提升,在 7 个算术应用题/常识推理数据集上,有 4 个超越了当前的 SOTA(如下表),而且只用了 8 个样本(即采集的数据)。 视觉即感知,语言即智能,但两者在「因果推理」的攻克上一直没有太耀眼的突破,而因果推理这一项能力对 AI 系统的进化又十分重要。可以这样理解:小孩子能够根据 1+1=2 来得出 100+100=200 的简单能力,对机器系统来说却十分复杂,就是因为系统缺少因果推理的想象力。如果机器连合理的推理能力/想象力都没有,那么我们距离研发出科幻电影里智能超群的机器人将遥不可及。而大模型的出现,使通用人工智能(AGI)的实现成为可能。 所以,我们可以看到,大公司宣传一个大模型,往往强调它能够同时解决多项任务,在多个任务基准上达到 SOTA(当前最高水平)。比如,谷歌今年推出的 5400 亿参数语言大模型 PaLM 可以解读笑话,还可以通过emoji表情猜电影,智源推出的「悟道2.0」可以孵化出琴棋书画、样样精通的虚拟学生华智冰。 简而言之,大模型往往具备一个特征:多才多艺,身兼多职。这对解决复杂场景的挑战至关重要。 「小模型的参数量少,局限于单一任务;而大模型(的优势)就像是,人在学习打乒乓球时所学到的知识对打羽毛球是有辅助效应的。大模型的任务与任务之间有泛化性。面对新任务时,小模型可能需要几千个、几万个训练数据,而大模型需要只可能一个训练数据,甚至完全不需要训练数据。」西湖大学深度学习实验室的负责人蓝振忠向雷峰网-AI 科技评论解释。 以对话系统的研究为例。对话系统主要分为两大类:一类是任务型对话,用户下达任务、AI 系统自动执行,快速订机票、买电影票等等;一类是开放型对话,如电影《她》( Her )中虚构的机器人,能够与人类交流任何话题,甚至让用户感觉到情感上的陪伴。这其中,后者的能力等级显然更高,研发难度也更大。前面迷雾重重,你不清楚将会面临怎样的挑战,这时,大模型本身具备的丰富「能力包」和在新任务上超常的出色表现,战斗力显然要优于小模型。 蓝振忠指出,目前学术界与工业界的 AI 研究者们对于大模型的许多特性还未完全掌握。举个例子,从上一代的 GPT-3 到这一代的 instruct GPT,我们可以看到它有一个质的飞跃,同样是大模型,但是 instruct GPT 在接受命令时效果却好很多,这是他们在研究大模型时才能体验到的。 参数量越来越大,AI 模型的性能究竟会发生什么变化?这是一个需要深入探索的科学问题,因此,继续投入研究大模型是有必要的。
99科技网:http://www.99it.com.cn

人工智能驱动的IP保护平台MarqVision近日宣布已完成2000万美元的A轮融资,用于为
快资讯2022-08-28
