OpenAI 创始人 John Schulman 复盘:如果重回 2015,我们能光速造出 ChatGPT 吗?

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。 如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久? OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。 这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。 带着答案考试:ChatGPT 其实可以“省钱”做 回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。 今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。 早期 OpenAI:草台班子与“走错路”的探索 现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。 当时有没有走弯路?当然有。...

December 18, 2025 · 1 min · fisherdaddy

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗?他在去年 8 月份离开 OpenAI 加入了 Anthropic,然而仅仅六个月后,他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph(他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟,他也加入了 Mira 的公司)一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享,他把本次分享的文档共享到了 Google Docs 上,这次分享的内容对 AI 的初学者特别友好,先介绍了后训练的三个组成部分以及基础概念,然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题,最后推荐了后训练相关的一些论文和博客,推荐大家看看。另外,我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要,也分享一下: 本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程,后训练是使基础模型 (Base Model) 转变为更像助手,并遵循正确输出格式的关键步骤,也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training),后训练计算成本更低,迭代周期更快,并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性,并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。 后训练主要包含三个组成部分: 监督微调 (SFT),用于克隆人类或专家的行为; 奖励模型 (RM) 训练,用于建模人类偏好; 强化学习 (RL),使用强化学习算法根据奖励模型进行优化,并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单,仅有文本输入和文本输出。随着时间推移,功能和模型显著扩展,增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化,OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险,并频繁整合和回滚变更。...

February 18, 2025 · 4 min · fisherdaddy