PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

2022-08-31 12:12来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

来源：AI科技评论作者：王玥编辑：陈彩娴近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题，而且还是麻省理工数学课程难度的数学题！在这项新研究中，研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题，并通过小样本学习自动解决数据集中 81%的数学课程问题，并且 Codex 在这些任务的表现上达到了人类水平。原文链接：https://www.pnas.org/doi/10.1073/pnas.2123433119 这项研究的出现，颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出，Codex 之所以能做到实现这样的能力，正是因为团队进行了一大创新，过去那些不成功的研究只使用了基于文本的预训练，而此次现身的 Codex 神经网络不仅要基于文本进行预训练，并且还对代码进行了微调。研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程，从七门课程中随机抽取 25 个问题：MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。同时，研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH，用 MATH 来检测OpenAI Codex 的能力，MATH 从6大数学板块：初级代数，代数，计数和概率，中级代数，数论，和初级微积分中各抽取15个问题。图注：研究中使用的课程问题数据集和MATH基准测试研究显示，Codex 解决了问题数据集和 MATH 数据集中的 265 个问题，其中有 213 个是自动解决的。

创新何所在

在 Transformer 发布后，基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务，包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练，所以这些模型基本上不能解决数学问题，GPT-3就是一个典型例子。后来，通过小样本学习（few-shot learning）和思维链 (Chain-of-thought， CoT) 提示，GPT-3 的数学推理能力得到了提高；然而，在没有代码的情况下，即便有小样本学习和 CoT 提示， GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。过去关于解数学题的研究，可能在相对简单的数学水平上有一定成绩。举个例子，基于协同训练输出来验证或预测表达式树的技术，比如MAWPS 和 Math23k，能够以超过 81% 的准确率解决小学级别的数学问题，但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树，能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案，并且产生了过拟合，不能推广到其他课程。而这项工作的最大创新点之一就是，不仅对Codex 这种Transformer 模型进行了文本上的预训练，还在代码上进行了微调，使得其可以生成大规模解决数学问题的程序。研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中，仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。相比之下，使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络（OpenAI Codex code-davinci-002）合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。而使用相同的神经网络 Codex 再加上少样本学习，便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题，最后通过手动提示解决。小样本学习方式的补充，则是这项研究的第二大创新点。从上图中可以看出，当零样本学习无法解答问题时，便会使用（问题，代码）对（pair）执行小样本学习： 1）使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题； 2）使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题； 3）将最相似的问题及其相应的代码作为小样本问题的示例。图注：4种方式的自动解题率对比上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出，橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现，基本上在每个数学领域上的表现都强于其他3种方式。这项研究的第三大创新点，便是提供了一条解决数学问题和解释为何如此解答的管道，下图展示了MIT 5门数学课程中管道的执行流程。以 18.01 单变量微积分问题为例，给定一个问题和自动生成的前缀“使用 SymPy”，Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后，程序会自动提示再次输入 Codex，从而生成生成的代码解释。

99科技网：http://www.99it.com.cn

共2页:
上一页
1
2
下一页

相关推荐

Arcane 研究：比特币未来将消耗多少能源？
本文估计了到 2040 年比特币能源使用的发展情况。

元宇宙2022-08-31

英伟达挖矿史：“把这一代最优秀的工程师聚在一起，然后研究挖比特币”
如果问各大科技公司，英伟达这家公司最让人羡慕的地方是什么，“不受周期限

元宇宙2022-08-31

NYDIG 研究：以太坊期权激增究竟代表了什么？
ETH 领涨，市场交易活动的活跃，“ETH 市值超越 BTC” 的话题讨论再现。

元宇宙2022-08-28

全球数字藏品研究报告（2022H1）：元宇宙创新繁荣与前途
流动性带来的潜在好处是，资源能够进行有效配置。

元宇宙2022-08-27

元宇宙的五个价值来源（元宇宙最新调研报告）
元宇宙，什么是元宇宙？元宇宙概念，元宇宙潜力，元宇宙高科技，脑机接口。

元宇宙2022-08-14

《元宇宙的近未来形态与概念应用的过渡方向研究》

元宇宙2022-08-14

7省17市国内元宇宙最新政策汇编（多图）
自雪崩至今，元宇宙已经酝酿和发展了整整 30 年。从概念到产业，元宇宙正

元宇宙2022-08-12

高金、申万宏源研究联合课题组发布元宇宙研究报告
8月8日，《元宇宙研究：技术、应用和经济范式》正式发布。该研究报告由上海

元宇宙2022-08-08

NFT法律研究系列：NFT“黑话”有哪些？
1、Metadata（元数据）数字作品的数据，即NFT的组成部分。 2、Airdrop（空投）投

元宇宙2022-08-07

NFT法律研究系列：NFT是什么
Non-Fungible Tokens 2021年，元宇宙的概念以惊人的热度闯入大众视野，资本的嗅觉灵

元宇宙2022-08-07

头条资讯

元宇宙概念为何爆发，互联网技术枯竭

音乐对顾客心理的影响

县级加盟什么店挣钱？

加盟雪丰建材需要什么条件？

未来经济发展的趋势？

推荐资讯

win7系统应用程序提示0x00000010错误怎么解决方法

OPPO,Vivo,华为，小米，哪个手机和智能手表更胜一筹？

在小县城开一家什么店比较赚钱?

在县城，做什么项目能挣大钱？

未来价值投资在哪里，未来经济世界又有着怎样的联系？

最近更新

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

AI笑话大全

Facebook聊天机器人自爆：我们公司出售用户数据，把FB账号删了，生活好多了

Demis Hassabis：AI 的强大，超乎我们的想象

新公链们的叙事