OpenAI 研究员谈数学与 AGI：从算不清露营账单，到奥赛金牌和研究级证明

本文整理自 YouTube 视频《How Math Unlocked AGI》，由有道龙虾总结和发布。

几年前，如果你让 ChatGPT 算一笔稍微复杂一点的露营 AA 账，或者帮三个不同时区的人找一个合适的 Zoom 会议时间，它大概率会翻车。

今天，OpenAI 的研究员已经在讨论另一个问题：模型能不能帮助 Fields Medalists 做日常研究？能不能解决 42 年没人解决的开放问题？能不能把数学家几个月甚至几年才能完成的思考，压缩成几天、几小时，甚至未来更长时间的自动研究？

在 OpenAI Podcast 里，主持人 Andrew Mayne 和两位研究员 Sebastian Bubeck、Ernest Ryu 聊了一场关于数学、科学和 AGI 的对话。Sebastian 曾在 Princeton 任教，长期研究优化和机器学习理论，后来加入 Microsoft，现在是 OpenAI 研究员。Ernest Ryu 也是应用数学家，曾在 UCLA 数学系任教授，研究优化和机器学习理论，最近加入 OpenAI。

这场对话最有意思的地方，不是简单说“AI 数学变强了”，而是把这件事放进了一个更大的框架里：数学为什么是衡量推理能力的最佳训练场？为什么模型会从几分钟推理走向几天、几周甚至几个月推理？为什么这条路和 AGI 密切相关？以及，为什么 AI 越强，越需要真正懂数学、懂科学的人类专家？

两年前还没有真正的推理模型，现在已经能帮数学家工作

Sebastian 对过去几年的变化用了一个很重的词：miraculous，近乎奇迹。

他提醒大家，两年前我们甚至还没有今天意义上的 reasoning model，更不用说证明困难数学定理。可现在，模型已经可以帮助 Fields Medalists 处理日常数学工作。

Ernest 说，这种进步连他们自己都被震到了。

一年前半，他参加过一个数学会议的 workshop。当时有一场辩论，主题是：只靠扩展 LLM，能不能帮助解决重大开放问题？现场一开始大约 80% 的数学家认为“不可能”。辩论结束后，比例变成大概 50-50，看起来已经是很大进展。

但回头看，这个争论本身都低估了速度。仅仅八个月后，模型就开始触及研究级数学。

这也是今天很多人还没完全反应过来的地方。我们对 AI 的印象更新得太慢了。很多人还记得早期 ChatGPT 算错小学题、搞错单位换算、不会安排时区会议，于是默认“语言模型不擅长数学”。但模型能力曲线并没有停在那里。

从 Minerva 到奥赛金牌：我们几乎忘了进步有多快

Sebastian 讲了一个很能说明尺度的例子。

四年前，ChatGPT 还没发布，Google 推出了一个数学模型 Minerva。当时 Sebastian 看到后非常震惊。为什么？因为他可以给模型平面上几个点的坐标，模型能给出穿过这些点的直线。

放到今天，这听起来甚至有点可笑：这不是理所当然吗？

但这正说明，我们已经很快习惯了新能力，忘记模型刚刚经历过怎样的跳跃。

Ernest 也回忆，2023、2024，甚至 2025 年初，模型连一些日常数学问题都处理不好。比如三个人露营，各自买了 17 件东西，最后要平摊账单；或者三个人分别在韩国、巴黎、加州，要找一个合适的会议时间。这些问题不需要高等数学，但需要稳定、多步、细心的推理。早期模型经常失败。

然后某个时间点，事情突然变了。模型不仅能处理这些日常推理，还开始解决国际数学奥林匹克级别的问题。

2025 年夏天，ChatGPT 达到了国际数学奥林匹克顶尖人类水平，拿到金牌级表现。这是一个非常清晰的标志：至少在竞赛数学上，模型已经能和最强高中生选手站在同一水平线上。

但 Ernest 很快补了一句：竞赛题毕竟是“罐装问题”。

奥赛题有明确答案，有人设计过，解法通常较短，因为它们是给几小时考试准备的。真正的研究数学不同。研究问题可能没人知道答案，证明可能很长，背景可能很深，甚至问题本身的状态都不清楚。

所以奥赛金牌不是终点，而只是下一个问题的开始：模型能做研究级数学吗？

一个 42 年开放问题，是怎么在 12 小时人机协作中解决的

Ernest 没有只看网上争论，而是拿自己的研究问题试了一次。

他研究的是优化理论中的一个经典开放问题，和 Nesterov accelerated gradient method 有关。这个算法在优化领域非常著名。大家知道它在多数情况下表现很好，会收敛；但问题是，在某些很坏的情况下，它会不会出现发散行为？

这个问题开放了 42 年。答案后来证明是：会。

Ernest 解决它的方式很有代表性。他不是简单把问题丢给 ChatGPT，然后等模型吐出完整证明。过程更像一个人机协作的数学研究会。

他的孩子晚上 8 点睡觉，他尽量不熬到午夜，所以每天晚上大约有 4 小时安静时间。三天里，他一共花了 12 小时和 ChatGPT 互动。

在这个过程中，他扮演 verifier 的角色：

模型出错时，他指出错误；
他把对话引向自己认为新颖、有希望的方向；
模型提出证明后，他自己检查；
他还让 ChatGPT 反过来复查证明。

最后，他们得到了一份正确证明，解决了这个 42 年开放问题。

Ernest 后来没有直接写论文，而是选择在 Twitter 上讲出来。因为这不仅是一个数学结果，也是一件值得让更多人看到的事情：AI 真的开始参与解决开放数学问题了。

这个例子很关键，因为它不是“AI 取代数学家”。恰恰相反，它展示的是专家如何把模型推到边界。没有 Ernest 的背景、判断、验证和方向感，这个结果很可能出不来。

为什么数学是 AI 推理能力最好的 benchmark

Andrew 问了一个很自然的问题：为什么数学这么重要？它不只是“很酷，模型会做题了”吗？

Sebastian 的回答很清楚：数学是衡量模型推理进展的完美 benchmark。

原因有两个。

第一，数学问题通常非常清楚，没有歧义。大家知道题目在问什么。

第二，答案可以验证。只要模型给出解法，人们可以判断它对不对。当然，到了研究级数学，验证会复杂很多，但在研究级之前，数学比许多开放领域更容易评估。

这让数学成为过去四年观察模型进步的理想窗口。

更重要的是，数学训练出的能力不只服务数学本身。

数学要求长时间、连贯、精确地思考。一个证明可以有很多步，只要其中一步错了，后面再漂亮也没用。模型必须学会在长链条里保持一致，发现错误，修正错误，维持逻辑结构。

Sebastian 认为，这正是 reasoning model 需要具备的能力。

人类为什么要学数学？不只是为了以后人人都当数学家，而是训练逻辑思维、抽象能力、耐心和严谨性。AI 也类似。模型在数学中获得的长推理能力，未来很可能迁移到其他科学领域。

从“回答问题”到“提出好问题”：AI 科研能力的真正变化

很多人以为 AI 擅长的是回答问题。但 Sebastian 提到，现在模型已经开始擅长提出问题。

这件事对科研非常重要。

科学进步并不只是解题。很多时候，最难的是提出一个好问题：这个问题有意义吗？是否可解？它和已有领域有什么联系？如果解决它，会不会打开新的方向？

Sebastian 说，他们内部已经有模型能够发现论文中的错误，指出正确答案；也能提出让人类研究者觉得“我也许应该围绕这个问题写篇论文”的问题。

这意味着模型正在从“学生”向“研究搭档”靠近。

不过，目前最常见的工作方式还是 professor-student interaction。人类像教授一样给出问题，模型像学生一样回来汇报，中间反复讨论。区别在于，模型把原本一周、一个月的反馈周期压缩到几分钟或几小时。

Ernest 的 42 年开放问题就是这种模式：不是模型独自跑完，而是人类专家持续验证、纠偏、引导。

Erdos 问题：AI 先做深度文献搜索，再开始做原创数学

对话中一个很精彩的部分，是 Sebastian 讲到 Paul Erdos 问题。

Paul Erdos 是 20 世纪最著名、最高产的数学家之一，写过约 1500 篇论文。他一生非常传奇，没有固定住所，经常在各个大学之间旅行，寻找合作者，提出问题。数学圈甚至有一个“Erdos number”，用来表示你和 Erdos 的合作距离。Sebastian 的 Erdos number 是 2，Ernest 是 3。

有一个网站整理了许多仍然开放的 Erdos 问题，大约上千个，维护者 Thomas Bloom 会标注哪些已解决、哪些开放、哪些状态复杂。

当 GPT 开始能解决研究数学问题后，这个问题库自然成了一个宝藏。

最开始，模型找到的一些“开放问题”答案，其实属于深度文献搜索。也就是说，答案已经存在于某个不相关领域的论文里，但表述语言完全不同，没有人把它和 Erdos 问题联系起来。GPT 扫描大量论文，发现了这种隐藏联系，并完成了必要的数学转译。

这件事本身已经很厉害。很多重大论文和奖项，其实也来自发现“这个领域的结果可以解决另一个领域的问题”。

后来，OpenAI 团队更系统地尝试这些问题，模型一度返回了 10 个 Erdos 问题的解法。Sebastian 在 Twitter 上兴奋地分享，结果引发了一些争议。有人以为他说模型独立解决了 10 个全新开放问题，但其中一些其实是文献中已有结果的重新连接。

真正惊人的转折发生在几个月后。

Sebastian 说，现在他们已经有超过 10 个完全新的 Erdos 问题解法，有些来自 ChatGPT，有些来自内部模型，结果达到可以发表在组合数学顶级期刊的水平。

这条线很清楚：

先是模型能做深度文献搜索，找到被人类社区遗忘或未连接的结果；然后开始在此基础上产生真正新的数学。

这也逼着我们重新思考“发现”到底是什么。科学进步是天才灵光一现，还是把已有知识重新组合，再加上一点推理？爱因斯坦式的故事很迷人，但真实科学往往更复杂，也更像许多片段的连接、转换和推进。

自动研究员与 AGI time：模型能连续思考多久？

Sebastian 提出了一个很有意思的概念：AGI time。

也就是，一个 AI 可以像人一样思考，但它能持续多久？

几年前，模型可能只是模仿一个高中生对问题思考几秒钟。后来是几分钟，再到几小时。现在，它们已经能在一些任务上模拟研究者思考几天，甚至接近一周。

下一步，是 weeks，甚至 months。

这就是 automated researcher 的方向：一个模型，或者一组模型，能在很长时间里自主推进研究。它不只是回答一个上下文窗口内的问题，而是长期工作、记录笔记、整理中间结果、回头复查、提出新路线、运行实验、和外部工具交互。

Ernest 用 Codex 做了一个类比。

今天数学家使用 ChatGPT，往往受限于上下文窗口。一个 session 也许能容纳几十页数学论文的内容，但真正做出一篇 10 页、30 页论文，背后的人类思考远远超过最终文本。数学家会想一天，写下笔记；过几天回来，整理思路；几个月后，形成论文。

Codex 在代码世界已经展示了一种更长程的工作模式：它可以围绕一个巨大代码仓库持续工作，不断根据指令修改、整理、压缩上下文、继续推进。数学研究未来也可能走向类似方式：数学笔记、证明草稿、反例搜索、文献线索和实验结果都成为模型长期工作的外部记忆。

Sebastian 说，没有人确切知道怎么做到月级别的 AI 推理，但过去四年的进展曲线非常稳定：从秒到分钟，从分钟到小时，从小时到天。沿着这条线走下去，自动研究员不再是科幻词。

AI 会怎样改变科学：不是数学特殊，而是数学最容易看见进步

很多人会问：数学强了，对生物、材料、物理、化学有什么影响？

Sebastian 强调，他们并不是为数学做了一套特别技术。OpenAI 的训练方法是通用的，应用在所有领域。数学之所以看起来进步最明显，是因为它好 benchmark、好验证。

换句话说，数学只是最先被清楚观察到的窗口。

一旦模型具备长链条推理、错误修正、问题分解和复杂知识连接能力，这些能力自然会迁移到其他科学领域。生物实验可能需要 wet lab，材料科学需要模拟和实验，物理需要模型和数据，但它们同样依赖长时间一致推理、文献整合、假设提出和实验设计。

Andrew 自己举了一个小例子。他周末做一个小项目，需要给小模型数学能力做 benchmark。本来他要花几小时写数据生成器，结果直接让 Codex 生成，五分钟后就有了。

这就是 science acceleration。不是“AI 替你完成诺奖发现”，而是把研究里许多本来会让人放弃的摩擦减少掉。

Sebastian 说，这会让科学家能做更多以前做不了的事。很多数学家不写代码，以前想做实验要找可怜的研究生；现在有 Codex，他们自己就能跑实验。反过来，其他学科的科学家也可以借助 ChatGPT 使用更高级的数学。

AI 的价值不只是替代某个步骤，而是降低跨领域探索的成本。

数学会变得更互联：冷门论文也可能在 100 年后被模型重新发现

Ernest 对数学未来的想象非常乐观。

研究级数学往往高度 niche。一篇论文写出来，作者可能知道全世界只有五个人真正关心。二十年后，它躺在 arXiv 或某个期刊里，几乎没人再读。

AI 会改变这一点。

如果一个结果未来有用，模型会读到它，记住它，把它和另一个领域的问题连接起来。一个今天看起来很冷门的定理，可能几十年后被模型发现能解决别处的关键问题。

这会让数学变得更加互联。

对数学家来说，这也改变了写作的意义。过去你可能担心自己的结果没人看到；未来，只要它真的有用，AI 很可能在某个时刻把它带回知识网络中。

同时，数学家也能访问更广的数学世界。你不可能精通所有领域，但模型可以提示你：某个你没学过的领域里，有一个结果可能适合你的问题。你仍然需要学习、理解、验证，但入口被打开了。

AI 验证会加速数学共同体，但不能取代人的责任

研究级数学还有一个常被低估的问题：验证很慢。

一篇 300 页证明声称解决重大问题，作者很有声望，表面看起来合理。你怎么知道它真的对？

通常需要很多人花几年时间读、检查、扩展、尝试使用，才能逐步形成共识。有时错误证明甚至会先被社区接受，后来才发现根本无法修补。

Ernest 说，已发表数学里有不少小错误，也有相当多大错误。他们用模型测试过这些问题。AI 在数学验证上还不完美，但已经很强，而且比人更有耐心。

未来，一个新论文放出来，也许一周内 AI 就能给出初步验证：哪里可信，哪里有疑点，哪一步需要人类仔细看。这不会意味着完全信任 AI 审稿，而是让 AI 帮人类把最危险、最值得检查的部分标出来。

这种机制也适用于代码。AI 可以帮助检查提交、发现问题，但最终责任必须落在人身上。

Ernest 认为，数学和代码的社会结构都需要调整：控制 agent 的人必须对输出负责。数学界本来就有这样的文化，一个人署名发表错误证明，会伤害声誉。AI 时代，这种责任感只会更重要。

最大危险不是 AI 太强，而是人类理解变浅

Sebastian 对未来有一个担忧：我们会不会把城堡钥匙交给 AI，然后不再做掌握技能所需的艰苦训练？

如果人们遇到难结果，只是让 ChatGPT 用简单语言解释，而不再花几个小时、几天、几周耐心地坐下来理解，人的理解可能会变浅。

这不是数学独有的问题。Ernest 说，coding 里也有类似的 mental atrophy。以前学计算机的人会和 debugger 搏斗，会亲手理解程序为什么坏。现在如果学生一路让 AI 代写、代改、代解释，可能没有真正建立底层能力。

这就是为什么两位研究员反复强调：专家更重要了，不是更不重要。

他们能从 ChatGPT 里挤出新结果，是因为自己有多年训练和深刻理解。没有这些背景，就很难判断模型哪一步错了、哪条路有前途、证明是否真的成立。

现实中已经有人用模型生成几十页“证明”，声称证明了某个定理，最后被数学家发现完全错误。模型会强化你的幻觉，让你觉得自己正在做伟大统一理论，但如果没有专业训练，很容易走偏。

所以 Sebastian 特别强调：请不要说“我们不需要科学家了”。这恰恰相反。我们需要比以往更多、更强的科学家。他们会更高产、更有能力，但必须真正精通自己的手艺。

AI 不会让数学结束，反而会让数学更好玩

历史上第一次计算机出现时，也有人觉得数学可能快没了。既然机器能算，那人是不是该转去物理？

结果完全不是这样。计算机打开了新的数学分支，也让数学和科学变得更复杂、更丰富。

AI 很可能也是如此。

Ernest 说，数学家喜欢解题，但传统数学研究也非常痛苦。一个问题可能想几个月，过程艰苦，只有真正找到答案时才有强烈的 dopamine rush。AI 会加速这个过程：更多解法，更多反馈，更多连接，也就有更多乐趣。

年轻一代数学家甚至可能迎来一个极其兴奋的时代。

如果你是今天还在高中的未来数学家，你将拥有前所未有的学习工具。遇到 Maxwell 方程，你可以让模型解释它的直觉、历史、几何意义和推导。遇到不懂的概念，可以不断追问，直到它贴合你的知识背景。

但工具越强，越不能跳过硬功夫。AI 可以让你更快上手，却不能替你真正拥有理解。

对普通人的建议：想学数学，就从和 ChatGPT 聊开始

如果一个人对数学好奇，但过去一直觉得“我不是数学人”，Ernest 的建议很简单：去和 ChatGPT 聊。

不要一上来啃 Wikipedia 上密密麻麻的定义。你可以告诉模型自己的背景：学过哪些书，懂哪些概念，哪里卡住了。然后让它解释一个概念，让它给你补缺口，让它提出适合你水平的问题。

更有趣的是，可以让模型帮你找一个开放但可理解的问题，或者从一个玩具问题开始。

Andrew 举了个例子：浴缸里能装多少颗 M&M？去年你大概读了多少个单词？这些问题看起来 silly，但它们会逼你估算、建模、拆解假设、查数据、做单位换算。聊着聊着，你会进入越来越复杂的数学。

数学本来就不该只是孤独地对着纸发呆。它也可以是一场对话。AI 让这种对话随时发生。

人类在 AI 科研时代的位置：不是更少，而是更关键

这场对话最后落在一个很重要的问题上：如果模型一年后能思考几周，两年后能思考几年，甚至做大部分人类研究者做的事，那人类还有什么角色？

Sebastian 的回答很清楚：科学不是为了生产更多论文，而是为了理解世界。

我们研究数学、物理、生物，不是为了在论文数量上赢过邻居，而是为了获得更深理解，进而更好地控制环境、治愈疾病、制造更可靠的系统、建造更好的东西。

AI 不会天然关心人类疾病，不会自己决定什么问题对人类重要。人类必须保持控制，决定哪些问题值得解决，哪些方向关乎价值。

这也是 AGI 语境下最容易被忽略的一点。能力提升很重要，但方向同样重要。自动研究员如果真的出现，它需要人类来提出目标、设定边界、判断意义、承担责任。

AI 可以把研究速度提高很多倍，但“为什么研究”仍然是人的问题。

结尾：数学是 AGI 的训练场，也是人类理解力的新起点

从算不清露营账单，到奥赛金牌；从画一条过点直线就让人惊讶，到帮助解决 42 年开放问题；从回答题目，到提出研究问题；从深度文献搜索，到原创 Erdos 问题解法。

AI 数学能力这几年的跃迁，确实让人有点难以消化。

但更重要的是，它让我们看见了 AGI 的一个核心维度：持续、稳定、可纠错的长时间推理。

数学之所以重要，不只是因为它能出漂亮分数，而是因为它要求模型在几十步、几百步，甚至未来几十页、几百页的推理中保持一致。它要求模型发现错误、修复错误、组织思路、积累中间结果、提出新问题。通往自动研究员的路，很可能要穿过这片训练场。

不过，这条路并不意味着人类专家退场。

恰恰相反，真正懂数学、懂科学、懂验证、懂问题价值的人，会变得更重要。因为工具越强，越需要有人知道该问什么、该信什么、该怀疑什么、该往哪里走。

未来的数学也许会更快、更互联、更可验证，也更好玩。AI 会读完那些没人读的论文，连接那些被遗忘的结果，帮科学家跨过以前会放弃的小摩擦。

但最后，理解仍然要发生在人这里。

模型可以帮我们走得更快。人类要负责知道为什么出发。

两年前还没有真正的推理模型，现在已经能帮数学家工作#

从 Minerva 到奥赛金牌：我们几乎忘了进步有多快#

一个 42 年开放问题，是怎么在 12 小时人机协作中解决的#

为什么数学是 AI 推理能力最好的 benchmark#

从“回答问题”到“提出好问题”：AI 科研能力的真正变化#

Erdos 问题：AI 先做深度文献搜索，再开始做原创数学#

自动研究员与 AGI time：模型能连续思考多久？#

AI 会怎样改变科学：不是数学特殊，而是数学最容易看见进步#

数学会变得更互联：冷门论文也可能在 100 年后被模型重新发现#

AI 验证会加速数学共同体，但不能取代人的责任#

最大危险不是 AI 太强，而是人类理解变浅#

AI 不会让数学结束，反而会让数学更好玩#

对普通人的建议：想学数学，就从和 ChatGPT 聊开始#

人类在 AI 科研时代的位置：不是更少，而是更关键#

结尾：数学是 AGI 的训练场，也是人类理解力的新起点#