为什么 AI 会有 Fast Mode?Reiner Pope 用一块黑板讲透芯片、推理与集群经济学
本文整理自 YouTube 视频《How GPT, Claude, and Gemini are actually trained and served – Reiner Pope》,由有道龙虾总结和发布。 现在很多 AI 产品都开始提供“快速模式”。Claude、Codex、Cursor 这类工具里,用户可以多付几倍的钱,换来更快的 token 输出速度。 这个现象表面上像是商业定价,背后其实是芯片、内存、模型架构和集群调度共同决定的结果。 MatX CEO Reiner Pope 很适合讲这件事。他以前在 Google 做过 TPU 架构,如今创业做 AI 芯片。和常规访谈不同,这次他几乎是站在黑板前,从 transformer 在一整架 GPU 上怎么跑开始,一步步推导出:为什么 AI API 会这么定价,为什么模型越来越稀疏,为什么长上下文这么贵,以及为什么 AI 进展看起来会被硬件形态牵着走。 Fast Mode 贵在哪里:核心不是“算得更快”,而是 batch size 访谈一开始的问题很直接:为什么用户多付 6 倍价格,模型就能以 2.5 倍速度输出?能不能继续加钱,100 倍价格换 100 倍速度?反过来,如果我愿意等很久,能不能有一个“Slow Mode”,价格便宜很多? Reiner 的答案很干脆:最大的因素是 batch size。 大模型推理不是一个用户来一次就单独跑一次。服务商会把很多用户的请求攒成一个 batch,一起送进 GPU 集群。这样做的原因也很朴素:模型权重太大了,每次推理都要从内存里把权重读出来。如果只服务一个用户,这次权重读取成本完全由一个 token 承担;如果同时服务两千个序列,这个成本就被两千份摊掉。 Reiner 用 roofline analysis 来估算推理时间。粗略说,推理时间由两个下限共同决定:...