陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年-轻识

新智元报道

编辑：Hjh

【新智元导读】Epoch AI推出数学基准FrontierMath，目前前沿模型测试成功率均低于2%！OpenAI研究科学家Noam Brown说道：「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来，外面是一片崭新的雪地，完全没有人迹。」或许，FrontierMath测试成功率突破的那一天，会是AI发展过程中一个全新的里程碑。

数学为评估复杂推理提供了一个独特而合适的测试平台。它需要一定的创造力和精确的逻辑链条——通常涉及复杂的证明，这些证明必须缜密地筹划和执行。同时，数学还允许对结果进行客观验证。

在铺天盖地的宣传中，LLM看起来已经攻破了数学大关。但果真如此吗？

不久前，来自苹果的研究院团队证明，就算是在数学这些基础科学方面最先进的o1模型，其卓越的表现也是来源于对特定数据集针对性的持续优化。

所以为了更好的检验模型对于数学问题的理解与解决能力，我们需要一个更加全面而行之有效的数学测试基准。

近日，Epoch AI联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。其包括数百个原创的、格外具有挑战性的数学问题，旨在评估AI系统中的高级推理能力。

研究团队基于这个测试基准评估了六个前沿的模型，它们的成功率竟然都低于2%！

论文地址：https://arxiv.org/abs/2411.04872

论文特意致谢了陶哲轩为FrontierMath基准贡献了一些问题

具体来说，这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题，而它们也通常需要数小时或数天的时间才能被专业数学家解决。

FrontierMath涉及的数学领域

这一测试集的发布一下炸出了不少AI大佬。

OpenAI研究员Clive Chan

德扑之父，OpenAI研究科学家Noam Brown

Anthropic联创Jack Clark

知名AI大牛Andrej Karpathy还发了一篇长帖「Moravec悖论在大语言模型评估中的体现」：

我对这个新的前沿数学基准测试感到惊讶，因为大语言模型在其中仅能解决2%的问题。引入这个基准测试的原因是大语言模型在现有数学基准测试中表现得越来越出色。有趣的问题在于，尽管从许多评估来看，大语言模型在数学和编程等领域已经逐渐接近顶级专家的水平，但你还是不会选择它们来完成对人类本身来讲最容易的工作。它们可以解决复杂的封闭问题，只要你在提示词中恰当地呈现问题描述，但它们在自主且连贯地解决长问题序列方面却很艰难，而这对人类来说是非常容易的。

这就是Moravec悖论的隐性体现，他在30多年前观察到，人类认为简单或困难的事情，对于计算机来说可能却恰恰相反。例如，人类对计算机下棋感到非常惊讶，但下棋对计算机来说却很简单，因为这是一个封闭的、确定性的系统，具有离散的动作空间、完全可观测性等等。反过来，人类可以系鞋带或折叠衬衫，并不觉得这有什么了不起，但这实际上是一个极其复杂的传感运动任务，对硬件和软件的最先进技术也还是一个挑战。这就像OpenAI前段时间发布的魔方项目，大多数人关注的是解魔方本身（这很简单），却不是让机器人用手去扭合一面魔方这种其实极其困难的任务。

所以我非常喜欢这个FrontierMath基准测试，我们应该多做一些这样的测试。但我也认为这是一个有趣的挑战，我们如何为所有那些「简单」但实际上很难的事情创建评估。非常长的上下文窗口、连贯性、自主性、常识、有效的多模态输入输出……我们如何构建好的「简单工作」评估？这些是你期望团队中任何入门级实习生都能完成的事情。

除了AI大佬们在纷纷讨论，网友们也炸了锅——

网友「Chubby」表达了自己的兴奋与期待！