John Schulman

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈：John Schulman on dead ends, scaling RL, and building research institutions，由我和 Gemini 3 Pro 共同整理完成。如果给 OpenAI 的创始团队开一个“上帝视角”，让他们带着今天的知识回到 2015 年，重建 ChatGPT 需要多久？ OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉：快得惊人，而且需要的算力比你想的要少得多。这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL（强化学习）的未来，以及他现在如何用 AI 写代码的深度思考。带着答案考试：ChatGPT 其实可以“省钱”做回看过去，如果我们知道确切的“配方”，其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到，像 Andrej Karpathy 写的那种 NanoGPT 已经证明了，一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年，哪怕只有几张 GPU（当时还是 V100），只要有现在的 Post-training（后训练）知识，几个聪明人加上高质量的微调数据，完全可以在那时就搞出 GPT-3.5 水平的对话模型。今天的我们知道，通过巧妙的数据构建和微调，可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景：一个文件搞定所有训练代码，一天之内跑完全流程。早期 OpenAI：草台班子与“走错路”的探索现在的 OpenAI 是市值巨无霸，但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿，OpenAI 更像是一个稍微大点的学术实验室，甚至有点“杂牌军（ragtag）”的感觉。大家三两成群，凭兴趣做研究，写写论文。当时有没有走弯路？当然有。...

还记得 OpenAI 联合创始人 John Schulman 吗？他在去年 8 月份离开 OpenAI 加入了 Anthropic，然而仅仅六个月后，他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph（他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟，他也加入了 Mira 的公司）一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享，他把本次分享的文档共享到了 Google Docs 上，这次分享的内容对 AI 的初学者特别友好，先介绍了后训练的三个组成部分以及基础概念，然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题，最后推荐了后训练相关的一些论文和博客，推荐大家看看。另外，我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要，也分享一下：本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程，后训练是使基础模型 (Base Model) 转变为更像助手，并遵循正确输出格式的关键步骤，也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training)，后训练计算成本更低，迭代周期更快，并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性，并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。后训练主要包含三个组成部分：监督微调 (SFT)，用于克隆人类或专家的行为；奖励模型 (RM) 训练，用于建模人类偏好；强化学习 (RL)，使用强化学习算法根据奖励模型进行优化，并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单，仅有文本输入和文本输出。随着时间推移，功能和模型显著扩展，增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化，OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险，并频繁整合和回滚变更。...

John Schulman

OpenAI 创始人 John Schulman 复盘：如果重回 2015，我们能光速造出 ChatGPT 吗？

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph