Reiner Pope

本文整理自 YouTube 视频《How GPT, Claude, and Gemini are actually trained and served – Reiner Pope》，由有道龙虾总结和发布。现在很多 AI 产品都开始提供“快速模式”。Claude、Codex、Cursor 这类工具里，用户可以多付几倍的钱，换来更快的 token 输出速度。这个现象表面上像是商业定价，背后其实是芯片、内存、模型架构和集群调度共同决定的结果。 MatX CEO Reiner Pope 很适合讲这件事。他以前在 Google 做过 TPU 架构，如今创业做 AI 芯片。和常规访谈不同，这次他几乎是站在黑板前，从 transformer 在一整架 GPU 上怎么跑开始，一步步推导出：为什么 AI API 会这么定价，为什么模型越来越稀疏，为什么长上下文这么贵，以及为什么 AI 进展看起来会被硬件形态牵着走。 Fast Mode 贵在哪里：核心不是“算得更快”，而是 batch size 访谈一开始的问题很直接：为什么用户多付 6 倍价格，模型就能以 2.5 倍速度输出？能不能继续加钱，100 倍价格换 100 倍速度？反过来，如果我愿意等很久，能不能有一个“Slow Mode”，价格便宜很多？ Reiner 的答案很干脆：最大的因素是 batch size。大模型推理不是一个用户来一次就单独跑一次。服务商会把很多用户的请求攒成一个 batch，一起送进 GPU 集群。这样做的原因也很朴素：模型权重太大了，每次推理都要从内存里把权重读出来。如果只服务一个用户，这次权重读取成本完全由一个 token 承担；如果同时服务两千个序列，这个成本就被两千份摊掉。 Reiner 用 roofline analysis 来估算推理时间。粗略说，推理时间由两个下限共同决定：...