Andrej Karpathy:2025 LLM 年度回顾 - 5大关键范式转变与 Vibe Coding

本文翻译自 Andrej Karpathy 发布在 X 上的对于 2025 年 LLM 的年度回顾:2025 LLM Year in Review. 2025 年是 LLM(大型语言模型)取得长足进步且充满大事的一年。以下是一份我个人认为值得注意且略显意外的“范式转变”清单——这些事物改变了格局,并在概念上令我印象深刻。 1. 基于可验证奖励的强化学习 (RLVR) 在 2025 年初,各大实验室的 LLM 生产技术栈看起来大概是这样的: 预训练 (Pretraining, 约 2020 年的 GPT-2/3) 监督微调 (Supervised Finetuning, 约 2022 年的 InstructGPT) 以及 基于人类反馈的强化学习 (RLHF, 约 2022 年) 在很长一段时间里,这是训练生产级 LLM 的稳定且行之有效的配方。在 2025 年,基于可验证奖励的强化学习 (RLVR) 崛起,成为了这一组合中事实上的新增主要阶段。通过在多个环境(例如数学/代码谜题)中针对可自动验证的奖励来训练 LLM,LLM 自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤,并学会了多种反复推敲以弄清问题的解题策略(参见 DeepSeek R1 论文中的例子)。这些策略在以前的范式中很难实现,因为对于 LLM 来说,最佳的推理轨迹和纠错方式是什么并不明确——它必须通过针对奖励的优化,自己找到行之有效的方法。 与 SFT 和 RLHF 阶段(这两个阶段相对较薄/较短,计算上只是微小的微调)不同,RLVR 涉及针对客观(不可被操纵)奖励函数的训练,这允许进行更长时间的优化。事实证明,运行 RLVR 提供了极高的能力/成本比,它吞噬了原本用于预训练的计算资源。因此,2025 年的大部分能力进步都是由 LLM 实验室消化这一新阶段的“剩余红利”所定义的,总体而言,我们看到了体量相似的 LLM,但 RL 运行时间要长得多。此外,这一新阶段独有的是,我们获得了一个全新的旋钮(以及相关的缩放定律),可以通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI o1(2024 年末)是 RLVR 模型的首次演示,但 o3 的发布(2025 年初)是一个明显的拐点,你能直观地感受到这种差异。...

December 25, 2025 · 2 min · fisherdaddy