机器学习引发对科学见解的反思

2023-03-01 12:38来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

数学和物理是一对老朋友。长期以来，它们见证了技术发展的起落，包括计算尺、计算器和Wolfram Alpha等辅助工具。如今，随着机器学习的最新进展应用于解决数学和物理问题，这些进展提出了一个根本性的问题：让算法学会我们思考方式有何意义？为什么要这么做？

“计算机非常擅长数学，指的是它们很擅长解决非常具体的问题。”谷歌研究院的机器学习专家盖伊•古尔阿里（Guy Gur-Ari）说。计算机擅长运算，填入数字并计算是相对简单的。但在形式结构之外，计算机则举步维艰。解决数学文字问题或“定量推理”看起来比较棘手，因为它需要更为稳健和严密，而解决许多其他问题也许并不需要。虽然机器学习模型接受训练的数据越多，产生的错误越少，但对于定量推理，改进的程度却很有限。研究人员开始意识到，对于机器学习生成模型在解决语言文字问题时产生的错误，需要更有针对性的方法。 2021年，来自加州大学伯克利分校和OpenAI的两个不同团队分别发布了MATH和GSM8K两个数据集，这两个数据集包含了涉及几何、代数和微积分基础等的数千个数学问题。“我们就是想要看看，数据集是否有问题。”在人工智能安全中心研究MATH的研究员史蒂文•巴萨特（Steven Basart）说。用格式更好的、更大的数据集进行训练，是否能够修复机器学习定量推理的错误？MATH团队发现，定量推理对最高级的机器学习语言模型也颇具挑战，其得分不到7%。（人类研究生的得分为40%，而国际数学奥林匹克竞赛冠军的得分为90%。） GSM8K数据集则是更简单的小学阶段问题，受训模型的准确率达到了约20%。为了实现这种准确率，OpenAI的研究人员使用了两种技术：精调和验证。在精调中，研究人员采用一个包含不相关信息的预训练语言模型，在训练中仅展示相关信息（数学问题）；验证则允许模型重新审视其错误。当时，OpenAI预测，需要使用100倍的数据对模型进行训练，才能在GSM8K上达到80%的准确率。但2022年6月，谷歌的Minerva宣布，小规模扩大训练即可实现78%的准确率。OpenAI的机器学习专家卡尔·科布（Karl Cobbe）说：“这超出我们所有的预期。”巴萨特表示同意，他说：“这太令人震惊了，我还以为要花很长的时间。” Minerva使用了谷歌自己的通路语言模型（PaLM），根据来自arXiv的科学论文和其他来源进行格式化数学精调。此外，帮助Minerva的还有另外两个策略。在“思维链提示”中，要求Minerva将较大的问题分解为更容易接受的小问题。该模型还使用多数投票，而不是仅要它提供一个答案或将一个问题解算100次。在这些结果中，Minerva选出最常见的答案。这些新策略带来了巨大的好处。Minerva在MATH上实现了高达50%的准确率，在GSM8K上的准确率接近80%。在MMLU上也是这样，MMLU是一个包含化学和生物的STEM普通问题集。对问题略微调整后随机取样，让Minerva重新进行计算，其表现也很好，这表明，这个能力不仅源自记忆。关于数学，Minerva了解哪些、不了解哪些，是很模糊的。这与数学家使用的带有内置结构的“证明助手”不同，Minerva和其他语言模型没有形式结构。它们可能会产生奇怪、混乱的推理，但仍然可得出正确的答案。随着数字的增大，语言模型的准确度会下降，这对于可靠的老式TI-84 Plus计算器，是绝不会发生的。 “它到底是聪明？还是不聪明？”科布问。虽然像Minerva一样的模型也许能够得出与人类一样的答案，但其遵循的实际过程可能完全不相同。另一方面，曾被要求“展示自己的作业”的学生都很熟悉“思维链提示”。谷歌研究院的机器学习专家伊桑•戴尔（Ethan Dyer）说：“我认为人们有这样一个概念，做数学的人有某种严格的推理系统，在已知和未知之间有明显的区别。”但人也可能得出不一致的答案、会犯错误和未能应用核心概念。在机器学习的这一前沿，边界是模糊的。像物理学家一样思考

99科技网：http://www.99it.com.cn

共2页:

相关推荐