推理 | FisherAI

本文整理自 YouTube 视频《How Math Unlocked AGI》，由有道龙虾总结和发布。几年前，如果你让 ChatGPT 算一笔稍微复杂一点的露营 AA 账，或者帮三个不同时区的人找一个合适的 Zoom 会议时间，它大概率会翻车。今天，OpenAI 的研究员已经在讨论另一个问题：模型能不能帮助 Fields Medalists 做日常研究？能不能解决 42 年没人解决的开放问题？能不能把数学家几个月甚至几年才能完成的思考，压缩成几天、几小时，甚至未来更长时间的自动研究？在 OpenAI Podcast 里，主持人 Andrew Mayne 和两位研究员 Sebastian Bubeck、Ernest Ryu 聊了一场关于数学、科学和 AGI 的对话。Sebastian 曾在 Princeton 任教，长期研究优化和机器学习理论，后来加入 Microsoft，现在是 OpenAI 研究员。Ernest Ryu 也是应用数学家，曾在 UCLA 数学系任教授，研究优化和机器学习理论，最近加入 OpenAI。这场对话最有意思的地方，不是简单说“AI 数学变强了”，而是把这件事放进了一个更大的框架里：数学为什么是衡量推理能力的最佳训练场？为什么模型会从几分钟推理走向几天、几周甚至几个月推理？为什么这条路和 AGI 密切相关？以及，为什么 AI 越强，越需要真正懂数学、懂科学的人类专家？两年前还没有真正的推理模型，现在已经能帮数学家工作 Sebastian 对过去几年的变化用了一个很重的词：miraculous，近乎奇迹。他提醒大家，两年前我们甚至还没有今天意义上的 reasoning model，更不用说证明困难数学定理。可现在，模型已经可以帮助 Fields Medalists 处理日常数学工作。 Ernest 说，这种进步连他们自己都被震到了。一年前半，他参加过一个数学会议的 workshop。当时有一场辩论，主题是：只靠扩展 LLM，能不能帮助解决重大开放问题？现场一开始大约 80% 的数学家认为“不可能”。辩论结束后，比例变成大概 50-50，看起来已经是很大进展。但回头看，这个争论本身都低估了速度。仅仅八个月后，模型就开始触及研究级数学。这也是今天很多人还没完全反应过来的地方。我们对 AI 的印象更新得太慢了。很多人还记得早期 ChatGPT 算错小学题、搞错单位换算、不会安排时区会议，于是默认“语言模型不擅长数学”。但模型能力曲线并没有停在那里。...

本文整理自 YouTube 视频《How GPT, Claude, and Gemini are actually trained and served – Reiner Pope》，由有道龙虾总结和发布。现在很多 AI 产品都开始提供“快速模式”。Claude、Codex、Cursor 这类工具里，用户可以多付几倍的钱，换来更快的 token 输出速度。这个现象表面上像是商业定价，背后其实是芯片、内存、模型架构和集群调度共同决定的结果。 MatX CEO Reiner Pope 很适合讲这件事。他以前在 Google 做过 TPU 架构，如今创业做 AI 芯片。和常规访谈不同，这次他几乎是站在黑板前，从 transformer 在一整架 GPU 上怎么跑开始，一步步推导出：为什么 AI API 会这么定价，为什么模型越来越稀疏，为什么长上下文这么贵，以及为什么 AI 进展看起来会被硬件形态牵着走。 Fast Mode 贵在哪里：核心不是“算得更快”，而是 batch size 访谈一开始的问题很直接：为什么用户多付 6 倍价格，模型就能以 2.5 倍速度输出？能不能继续加钱，100 倍价格换 100 倍速度？反过来，如果我愿意等很久，能不能有一个“Slow Mode”，价格便宜很多？ Reiner 的答案很干脆：最大的因素是 batch size。大模型推理不是一个用户来一次就单独跑一次。服务商会把很多用户的请求攒成一个 batch，一起送进 GPU 集群。这样做的原因也很朴素：模型权重太大了，每次推理都要从内存里把权重读出来。如果只服务一个用户，这次权重读取成本完全由一个 token 承担；如果同时服务两千个序列，这个成本就被两千份摊掉。 Reiner 用 roofline analysis 来估算推理时间。粗略说，推理时间由两个下限共同决定：...

推理

OpenAI 研究员谈数学与 AGI：从算不清露营账单，到奥赛金牌和研究级证明

为什么 AI 会有 Fast Mode？Reiner Pope 用一块黑板讲透芯片、推理与集群经济学