本文整理自 YouTube 视频《How Math Unlocked AGI》,由有道龙虾总结和发布。

几年前,如果你让 ChatGPT 算一笔稍微复杂一点的露营 AA 账,或者帮三个不同时区的人找一个合适的 Zoom 会议时间,它大概率会翻车。

今天,OpenAI 的研究员已经在讨论另一个问题:模型能不能帮助 Fields Medalists 做日常研究?能不能解决 42 年没人解决的开放问题?能不能把数学家几个月甚至几年才能完成的思考,压缩成几天、几小时,甚至未来更长时间的自动研究?

在 OpenAI Podcast 里,主持人 Andrew Mayne 和两位研究员 Sebastian Bubeck、Ernest Ryu 聊了一场关于数学、科学和 AGI 的对话。Sebastian 曾在 Princeton 任教,长期研究优化和机器学习理论,后来加入 Microsoft,现在是 OpenAI 研究员。Ernest Ryu 也是应用数学家,曾在 UCLA 数学系任教授,研究优化和机器学习理论,最近加入 OpenAI。

这场对话最有意思的地方,不是简单说“AI 数学变强了”,而是把这件事放进了一个更大的框架里:数学为什么是衡量推理能力的最佳训练场?为什么模型会从几分钟推理走向几天、几周甚至几个月推理?为什么这条路和 AGI 密切相关?以及,为什么 AI 越强,越需要真正懂数学、懂科学的人类专家?

两年前还没有真正的推理模型,现在已经能帮数学家工作

Sebastian 对过去几年的变化用了一个很重的词:miraculous,近乎奇迹。

他提醒大家,两年前我们甚至还没有今天意义上的 reasoning model,更不用说证明困难数学定理。可现在,模型已经可以帮助 Fields Medalists 处理日常数学工作。

Ernest 说,这种进步连他们自己都被震到了。

一年前半,他参加过一个数学会议的 workshop。当时有一场辩论,主题是:只靠扩展 LLM,能不能帮助解决重大开放问题?现场一开始大约 80% 的数学家认为“不可能”。辩论结束后,比例变成大概 50-50,看起来已经是很大进展。

但回头看,这个争论本身都低估了速度。仅仅八个月后,模型就开始触及研究级数学。

这也是今天很多人还没完全反应过来的地方。我们对 AI 的印象更新得太慢了。很多人还记得早期 ChatGPT 算错小学题、搞错单位换算、不会安排时区会议,于是默认“语言模型不擅长数学”。但模型能力曲线并没有停在那里。

从 Minerva 到奥赛金牌:我们几乎忘了进步有多快

Sebastian 讲了一个很能说明尺度的例子。

四年前,ChatGPT 还没发布,Google 推出了一个数学模型 Minerva。当时 Sebastian 看到后非常震惊。为什么?因为他可以给模型平面上几个点的坐标,模型能给出穿过这些点的直线。

放到今天,这听起来甚至有点可笑:这不是理所当然吗?

但这正说明,我们已经很快习惯了新能力,忘记模型刚刚经历过怎样的跳跃。

Ernest 也回忆,2023、2024,甚至 2025 年初,模型连一些日常数学问题都处理不好。比如三个人露营,各自买了 17 件东西,最后要平摊账单;或者三个人分别在韩国、巴黎、加州,要找一个合适的会议时间。这些问题不需要高等数学,但需要稳定、多步、细心的推理。早期模型经常失败。

然后某个时间点,事情突然变了。模型不仅能处理这些日常推理,还开始解决国际数学奥林匹克级别的问题。

2025 年夏天,ChatGPT 达到了国际数学奥林匹克顶尖人类水平,拿到金牌级表现。这是一个非常清晰的标志:至少在竞赛数学上,模型已经能和最强高中生选手站在同一水平线上。

但 Ernest 很快补了一句:竞赛题毕竟是“罐装问题”。

奥赛题有明确答案,有人设计过,解法通常较短,因为它们是给几小时考试准备的。真正的研究数学不同。研究问题可能没人知道答案,证明可能很长,背景可能很深,甚至问题本身的状态都不清楚。

所以奥赛金牌不是终点,而只是下一个问题的开始:模型能做研究级数学吗?

一个 42 年开放问题,是怎么在 12 小时人机协作中解决的

Ernest 没有只看网上争论,而是拿自己的研究问题试了一次。

他研究的是优化理论中的一个经典开放问题,和 Nesterov accelerated gradient method 有关。这个算法在优化领域非常著名。大家知道它在多数情况下表现很好,会收敛;但问题是,在某些很坏的情况下,它会不会出现发散行为?

这个问题开放了 42 年。答案后来证明是:会。

Ernest 解决它的方式很有代表性。他不是简单把问题丢给 ChatGPT,然后等模型吐出完整证明。过程更像一个人机协作的数学研究会。

他的孩子晚上 8 点睡觉,他尽量不熬到午夜,所以每天晚上大约有 4 小时安静时间。三天里,他一共花了 12 小时和 ChatGPT 互动。

在这个过程中,他扮演 verifier 的角色:

  • 模型出错时,他指出错误;
  • 他把对话引向自己认为新颖、有希望的方向;
  • 模型提出证明后,他自己检查;
  • 他还让 ChatGPT 反过来复查证明。

最后,他们得到了一份正确证明,解决了这个 42 年开放问题。

Ernest 后来没有直接写论文,而是选择在 Twitter 上讲出来。因为这不仅是一个数学结果,也是一件值得让更多人看到的事情:AI 真的开始参与解决开放数学问题了。

这个例子很关键,因为它不是“AI 取代数学家”。恰恰相反,它展示的是专家如何把模型推到边界。没有 Ernest 的背景、判断、验证和方向感,这个结果很可能出不来。

为什么数学是 AI 推理能力最好的 benchmark

Andrew 问了一个很自然的问题:为什么数学这么重要?它不只是“很酷,模型会做题了”吗?

Sebastian 的回答很清楚:数学是衡量模型推理进展的完美 benchmark。

原因有两个。

第一,数学问题通常非常清楚,没有歧义。大家知道题目在问什么。

第二,答案可以验证。只要模型给出解法,人们可以判断它对不对。当然,到了研究级数学,验证会复杂很多,但在研究级之前,数学比许多开放领域更容易评估。

这让数学成为过去四年观察模型进步的理想窗口。

更重要的是,数学训练出的能力不只服务数学本身。

数学要求长时间、连贯、精确地思考。一个证明可以有很多步,只要其中一步错了,后面再漂亮也没用。模型必须学会在长链条里保持一致,发现错误,修正错误,维持逻辑结构。

Sebastian 认为,这正是 reasoning model 需要具备的能力。

人类为什么要学数学?不只是为了以后人人都当数学家,而是训练逻辑思维、抽象能力、耐心和严谨性。AI 也类似。模型在数学中获得的长推理能力,未来很可能迁移到其他科学领域。

从“回答问题”到“提出好问题”:AI 科研能力的真正变化

很多人以为 AI 擅长的是回答问题。但 Sebastian 提到,现在模型已经开始擅长提出问题。

这件事对科研非常重要。

科学进步并不只是解题。很多时候,最难的是提出一个好问题:这个问题有意义吗?是否可解?它和已有领域有什么联系?如果解决它,会不会打开新的方向?

Sebastian 说,他们内部已经有模型能够发现论文中的错误,指出正确答案;也能提出让人类研究者觉得“我也许应该围绕这个问题写篇论文”的问题。

这意味着模型正在从“学生”向“研究搭档”靠近。

不过,目前最常见的工作方式还是 professor-student interaction。人类像教授一样给出问题,模型像学生一样回来汇报,中间反复讨论。区别在于,模型把原本一周、一个月的反馈周期压缩到几分钟或几小时。

Ernest 的 42 年开放问题就是这种模式:不是模型独自跑完,而是人类专家持续验证、纠偏、引导。

Erdos 问题:AI 先做深度文献搜索,再开始做原创数学

对话中一个很精彩的部分,是 Sebastian 讲到 Paul Erdos 问题。

Paul Erdos 是 20 世纪最著名、最高产的数学家之一,写过约 1500 篇论文。他一生非常传奇,没有固定住所,经常在各个大学之间旅行,寻找合作者,提出问题。数学圈甚至有一个“Erdos number”,用来表示你和 Erdos 的合作距离。Sebastian 的 Erdos number 是 2,Ernest 是 3。

有一个网站整理了许多仍然开放的 Erdos 问题,大约上千个,维护者 Thomas Bloom 会标注哪些已解决、哪些开放、哪些状态复杂。

当 GPT 开始能解决研究数学问题后,这个问题库自然成了一个宝藏。

最开始,模型找到的一些“开放问题”答案,其实属于深度文献搜索。也就是说,答案已经存在于某个不相关领域的论文里,但表述语言完全不同,没有人把它和 Erdos 问题联系起来。GPT 扫描大量论文,发现了这种隐藏联系,并完成了必要的数学转译。

这件事本身已经很厉害。很多重大论文和奖项,其实也来自发现“这个领域的结果可以解决另一个领域的问题”。

后来,OpenAI 团队更系统地尝试这些问题,模型一度返回了 10 个 Erdos 问题的解法。Sebastian 在 Twitter 上兴奋地分享,结果引发了一些争议。有人以为他说模型独立解决了 10 个全新开放问题,但其中一些其实是文献中已有结果的重新连接。

真正惊人的转折发生在几个月后。

Sebastian 说,现在他们已经有超过 10 个完全新的 Erdos 问题解法,有些来自 ChatGPT,有些来自内部模型,结果达到可以发表在组合数学顶级期刊的水平。

这条线很清楚:

先是模型能做深度文献搜索,找到被人类社区遗忘或未连接的结果;然后开始在此基础上产生真正新的数学。

这也逼着我们重新思考“发现”到底是什么。科学进步是天才灵光一现,还是把已有知识重新组合,再加上一点推理?爱因斯坦式的故事很迷人,但真实科学往往更复杂,也更像许多片段的连接、转换和推进。

自动研究员与 AGI time:模型能连续思考多久?

Sebastian 提出了一个很有意思的概念:AGI time。

也就是,一个 AI 可以像人一样思考,但它能持续多久?

几年前,模型可能只是模仿一个高中生对问题思考几秒钟。后来是几分钟,再到几小时。现在,它们已经能在一些任务上模拟研究者思考几天,甚至接近一周。

下一步,是 weeks,甚至 months。

这就是 automated researcher 的方向:一个模型,或者一组模型,能在很长时间里自主推进研究。它不只是回答一个上下文窗口内的问题,而是长期工作、记录笔记、整理中间结果、回头复查、提出新路线、运行实验、和外部工具交互。

Ernest 用 Codex 做了一个类比。

今天数学家使用 ChatGPT,往往受限于上下文窗口。一个 session 也许能容纳几十页数学论文的内容,但真正做出一篇 10 页、30 页论文,背后的人类思考远远超过最终文本。数学家会想一天,写下笔记;过几天回来,整理思路;几个月后,形成论文。

Codex 在代码世界已经展示了一种更长程的工作模式:它可以围绕一个巨大代码仓库持续工作,不断根据指令修改、整理、压缩上下文、继续推进。数学研究未来也可能走向类似方式:数学笔记、证明草稿、反例搜索、文献线索和实验结果都成为模型长期工作的外部记忆。

Sebastian 说,没有人确切知道怎么做到月级别的 AI 推理,但过去四年的进展曲线非常稳定:从秒到分钟,从分钟到小时,从小时到天。沿着这条线走下去,自动研究员不再是科幻词。

AI 会怎样改变科学:不是数学特殊,而是数学最容易看见进步

很多人会问:数学强了,对生物、材料、物理、化学有什么影响?

Sebastian 强调,他们并不是为数学做了一套特别技术。OpenAI 的训练方法是通用的,应用在所有领域。数学之所以看起来进步最明显,是因为它好 benchmark、好验证。

换句话说,数学只是最先被清楚观察到的窗口。

一旦模型具备长链条推理、错误修正、问题分解和复杂知识连接能力,这些能力自然会迁移到其他科学领域。生物实验可能需要 wet lab,材料科学需要模拟和实验,物理需要模型和数据,但它们同样依赖长时间一致推理、文献整合、假设提出和实验设计。

Andrew 自己举了一个小例子。他周末做一个小项目,需要给小模型数学能力做 benchmark。本来他要花几小时写数据生成器,结果直接让 Codex 生成,五分钟后就有了。

这就是 science acceleration。不是“AI 替你完成诺奖发现”,而是把研究里许多本来会让人放弃的摩擦减少掉。

Sebastian 说,这会让科学家能做更多以前做不了的事。很多数学家不写代码,以前想做实验要找可怜的研究生;现在有 Codex,他们自己就能跑实验。反过来,其他学科的科学家也可以借助 ChatGPT 使用更高级的数学。

AI 的价值不只是替代某个步骤,而是降低跨领域探索的成本。

数学会变得更互联:冷门论文也可能在 100 年后被模型重新发现

Ernest 对数学未来的想象非常乐观。

研究级数学往往高度 niche。一篇论文写出来,作者可能知道全世界只有五个人真正关心。二十年后,它躺在 arXiv 或某个期刊里,几乎没人再读。

AI 会改变这一点。

如果一个结果未来有用,模型会读到它,记住它,把它和另一个领域的问题连接起来。一个今天看起来很冷门的定理,可能几十年后被模型发现能解决别处的关键问题。

这会让数学变得更加互联。

对数学家来说,这也改变了写作的意义。过去你可能担心自己的结果没人看到;未来,只要它真的有用,AI 很可能在某个时刻把它带回知识网络中。

同时,数学家也能访问更广的数学世界。你不可能精通所有领域,但模型可以提示你:某个你没学过的领域里,有一个结果可能适合你的问题。你仍然需要学习、理解、验证,但入口被打开了。

AI 验证会加速数学共同体,但不能取代人的责任

研究级数学还有一个常被低估的问题:验证很慢。

一篇 300 页证明声称解决重大问题,作者很有声望,表面看起来合理。你怎么知道它真的对?

通常需要很多人花几年时间读、检查、扩展、尝试使用,才能逐步形成共识。有时错误证明甚至会先被社区接受,后来才发现根本无法修补。

Ernest 说,已发表数学里有不少小错误,也有相当多大错误。他们用模型测试过这些问题。AI 在数学验证上还不完美,但已经很强,而且比人更有耐心。

未来,一个新论文放出来,也许一周内 AI 就能给出初步验证:哪里可信,哪里有疑点,哪一步需要人类仔细看。这不会意味着完全信任 AI 审稿,而是让 AI 帮人类把最危险、最值得检查的部分标出来。

这种机制也适用于代码。AI 可以帮助检查提交、发现问题,但最终责任必须落在人身上。

Ernest 认为,数学和代码的社会结构都需要调整:控制 agent 的人必须对输出负责。数学界本来就有这样的文化,一个人署名发表错误证明,会伤害声誉。AI 时代,这种责任感只会更重要。

最大危险不是 AI 太强,而是人类理解变浅

Sebastian 对未来有一个担忧:我们会不会把城堡钥匙交给 AI,然后不再做掌握技能所需的艰苦训练?

如果人们遇到难结果,只是让 ChatGPT 用简单语言解释,而不再花几个小时、几天、几周耐心地坐下来理解,人的理解可能会变浅。

这不是数学独有的问题。Ernest 说,coding 里也有类似的 mental atrophy。以前学计算机的人会和 debugger 搏斗,会亲手理解程序为什么坏。现在如果学生一路让 AI 代写、代改、代解释,可能没有真正建立底层能力。

这就是为什么两位研究员反复强调:专家更重要了,不是更不重要。

他们能从 ChatGPT 里挤出新结果,是因为自己有多年训练和深刻理解。没有这些背景,就很难判断模型哪一步错了、哪条路有前途、证明是否真的成立。

现实中已经有人用模型生成几十页“证明”,声称证明了某个定理,最后被数学家发现完全错误。模型会强化你的幻觉,让你觉得自己正在做伟大统一理论,但如果没有专业训练,很容易走偏。

所以 Sebastian 特别强调:请不要说“我们不需要科学家了”。这恰恰相反。我们需要比以往更多、更强的科学家。他们会更高产、更有能力,但必须真正精通自己的手艺。

AI 不会让数学结束,反而会让数学更好玩

历史上第一次计算机出现时,也有人觉得数学可能快没了。既然机器能算,那人是不是该转去物理?

结果完全不是这样。计算机打开了新的数学分支,也让数学和科学变得更复杂、更丰富。

AI 很可能也是如此。

Ernest 说,数学家喜欢解题,但传统数学研究也非常痛苦。一个问题可能想几个月,过程艰苦,只有真正找到答案时才有强烈的 dopamine rush。AI 会加速这个过程:更多解法,更多反馈,更多连接,也就有更多乐趣。

年轻一代数学家甚至可能迎来一个极其兴奋的时代。

如果你是今天还在高中的未来数学家,你将拥有前所未有的学习工具。遇到 Maxwell 方程,你可以让模型解释它的直觉、历史、几何意义和推导。遇到不懂的概念,可以不断追问,直到它贴合你的知识背景。

但工具越强,越不能跳过硬功夫。AI 可以让你更快上手,却不能替你真正拥有理解。

对普通人的建议:想学数学,就从和 ChatGPT 聊开始

如果一个人对数学好奇,但过去一直觉得“我不是数学人”,Ernest 的建议很简单:去和 ChatGPT 聊。

不要一上来啃 Wikipedia 上密密麻麻的定义。你可以告诉模型自己的背景:学过哪些书,懂哪些概念,哪里卡住了。然后让它解释一个概念,让它给你补缺口,让它提出适合你水平的问题。

更有趣的是,可以让模型帮你找一个开放但可理解的问题,或者从一个玩具问题开始。

Andrew 举了个例子:浴缸里能装多少颗 M&M?去年你大概读了多少个单词?这些问题看起来 silly,但它们会逼你估算、建模、拆解假设、查数据、做单位换算。聊着聊着,你会进入越来越复杂的数学。

数学本来就不该只是孤独地对着纸发呆。它也可以是一场对话。AI 让这种对话随时发生。

人类在 AI 科研时代的位置:不是更少,而是更关键

这场对话最后落在一个很重要的问题上:如果模型一年后能思考几周,两年后能思考几年,甚至做大部分人类研究者做的事,那人类还有什么角色?

Sebastian 的回答很清楚:科学不是为了生产更多论文,而是为了理解世界。

我们研究数学、物理、生物,不是为了在论文数量上赢过邻居,而是为了获得更深理解,进而更好地控制环境、治愈疾病、制造更可靠的系统、建造更好的东西。

AI 不会天然关心人类疾病,不会自己决定什么问题对人类重要。人类必须保持控制,决定哪些问题值得解决,哪些方向关乎价值。

这也是 AGI 语境下最容易被忽略的一点。能力提升很重要,但方向同样重要。自动研究员如果真的出现,它需要人类来提出目标、设定边界、判断意义、承担责任。

AI 可以把研究速度提高很多倍,但“为什么研究”仍然是人的问题。

结尾:数学是 AGI 的训练场,也是人类理解力的新起点

从算不清露营账单,到奥赛金牌;从画一条过点直线就让人惊讶,到帮助解决 42 年开放问题;从回答题目,到提出研究问题;从深度文献搜索,到原创 Erdos 问题解法。

AI 数学能力这几年的跃迁,确实让人有点难以消化。

但更重要的是,它让我们看见了 AGI 的一个核心维度:持续、稳定、可纠错的长时间推理。

数学之所以重要,不只是因为它能出漂亮分数,而是因为它要求模型在几十步、几百步,甚至未来几十页、几百页的推理中保持一致。它要求模型发现错误、修复错误、组织思路、积累中间结果、提出新问题。通往自动研究员的路,很可能要穿过这片训练场。

不过,这条路并不意味着人类专家退场。

恰恰相反,真正懂数学、懂科学、懂验证、懂问题价值的人,会变得更重要。因为工具越强,越需要有人知道该问什么、该信什么、该怀疑什么、该往哪里走。

未来的数学也许会更快、更互联、更可验证,也更好玩。AI 会读完那些没人读的论文,连接那些被遗忘的结果,帮科学家跨过以前会放弃的小摩擦。

但最后,理解仍然要发生在人这里。

模型可以帮我们走得更快。人类要负责知道为什么出发。