OpenAI 研究员谈数学与 AGI:从算不清露营账单,到奥赛金牌和研究级证明

本文整理自 YouTube 视频《How Math Unlocked AGI》,由有道龙虾总结和发布。 几年前,如果你让 ChatGPT 算一笔稍微复杂一点的露营 AA 账,或者帮三个不同时区的人找一个合适的 Zoom 会议时间,它大概率会翻车。 今天,OpenAI 的研究员已经在讨论另一个问题:模型能不能帮助 Fields Medalists 做日常研究?能不能解决 42 年没人解决的开放问题?能不能把数学家几个月甚至几年才能完成的思考,压缩成几天、几小时,甚至未来更长时间的自动研究? 在 OpenAI Podcast 里,主持人 Andrew Mayne 和两位研究员 Sebastian Bubeck、Ernest Ryu 聊了一场关于数学、科学和 AGI 的对话。Sebastian 曾在 Princeton 任教,长期研究优化和机器学习理论,后来加入 Microsoft,现在是 OpenAI 研究员。Ernest Ryu 也是应用数学家,曾在 UCLA 数学系任教授,研究优化和机器学习理论,最近加入 OpenAI。 这场对话最有意思的地方,不是简单说“AI 数学变强了”,而是把这件事放进了一个更大的框架里:数学为什么是衡量推理能力的最佳训练场?为什么模型会从几分钟推理走向几天、几周甚至几个月推理?为什么这条路和 AGI 密切相关?以及,为什么 AI 越强,越需要真正懂数学、懂科学的人类专家? 两年前还没有真正的推理模型,现在已经能帮数学家工作 Sebastian 对过去几年的变化用了一个很重的词:miraculous,近乎奇迹。 他提醒大家,两年前我们甚至还没有今天意义上的 reasoning model,更不用说证明困难数学定理。可现在,模型已经可以帮助 Fields Medalists 处理日常数学工作。 Ernest 说,这种进步连他们自己都被震到了。 一年前半,他参加过一个数学会议的 workshop。当时有一场辩论,主题是:只靠扩展 LLM,能不能帮助解决重大开放问题?现场一开始大约 80% 的数学家认为“不可能”。辩论结束后,比例变成大概 50-50,看起来已经是很大进展。 但回头看,这个争论本身都低估了速度。仅仅八个月后,模型就开始触及研究级数学。 这也是今天很多人还没完全反应过来的地方。我们对 AI 的印象更新得太慢了。很多人还记得早期 ChatGPT 算错小学题、搞错单位换算、不会安排时区会议,于是默认“语言模型不擅长数学”。但模型能力曲线并没有停在那里。...

May 5, 2026 · 3 min · fisherdaddy

为什么 AI 会有 Fast Mode?Reiner Pope 用一块黑板讲透芯片、推理与集群经济学

本文整理自 YouTube 视频《How GPT, Claude, and Gemini are actually trained and served – Reiner Pope》,由有道龙虾总结和发布。 现在很多 AI 产品都开始提供“快速模式”。Claude、Codex、Cursor 这类工具里,用户可以多付几倍的钱,换来更快的 token 输出速度。 这个现象表面上像是商业定价,背后其实是芯片、内存、模型架构和集群调度共同决定的结果。 MatX CEO Reiner Pope 很适合讲这件事。他以前在 Google 做过 TPU 架构,如今创业做 AI 芯片。和常规访谈不同,这次他几乎是站在黑板前,从 transformer 在一整架 GPU 上怎么跑开始,一步步推导出:为什么 AI API 会这么定价,为什么模型越来越稀疏,为什么长上下文这么贵,以及为什么 AI 进展看起来会被硬件形态牵着走。 Fast Mode 贵在哪里:核心不是“算得更快”,而是 batch size 访谈一开始的问题很直接:为什么用户多付 6 倍价格,模型就能以 2.5 倍速度输出?能不能继续加钱,100 倍价格换 100 倍速度?反过来,如果我愿意等很久,能不能有一个“Slow Mode”,价格便宜很多? Reiner 的答案很干脆:最大的因素是 batch size。 大模型推理不是一个用户来一次就单独跑一次。服务商会把很多用户的请求攒成一个 batch,一起送进 GPU 集群。这样做的原因也很朴素:模型权重太大了,每次推理都要从内存里把权重读出来。如果只服务一个用户,这次权重读取成本完全由一个 token 承担;如果同时服务两千个序列,这个成本就被两千份摊掉。 Reiner 用 roofline analysis 来估算推理时间。粗略说,推理时间由两个下限共同决定:...

May 5, 2026 · 4 min · fisherdaddy