OpenAI 创始人 John Schulman 复盘：如果重回 2015，我们能光速造出 ChatGPT 吗？

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈：John Schulman on dead ends, scaling RL, and building research institutions，由我和 Gemini 3 Pro 共同整理完成。

如果给 OpenAI 的创始团队开一个“上帝视角”，让他们带着今天的知识回到 2015 年，重建 ChatGPT 需要多久？

OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉：快得惊人，而且需要的算力比你想的要少得多。

这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL（强化学习）的未来，以及他现在如何用 AI 写代码的深度思考。

带着答案考试：ChatGPT 其实可以“省钱”做

回看过去，如果我们知道确切的“配方”，其实并不需要当年那么恐怖的算力堆叠。

Schulman 提到，像 Andrej Karpathy 写的那种 NanoGPT 已经证明了，一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年，哪怕只有几张 GPU（当时还是 V100），只要有现在的 Post-training（后训练） 知识，几个聪明人加上高质量的微调数据，完全可以在那时就搞出 GPT-3.5 水平的对话模型。

今天的我们知道，通过巧妙的数据构建和微调，可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景：一个文件搞定所有训练代码，一天之内跑完全流程。

早期 OpenAI：草台班子与“走错路”的探索

现在的 OpenAI 是市值巨无霸，但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿，OpenAI 更像是一个稍微大点的学术实验室，甚至有点“杂牌军（ragtag）”的感觉。大家三两成群，凭兴趣做研究，写写论文。

当时有没有走弯路？当然有。

Universe 项目：这是当时一个野心勃勃的计划，想把全网所有的游戏、网页操作都做成 RL（强化学习）环境，训练一个通用智能体。听起来很对，对吧？但这想法超前了大概十年。当时的基建太差，训练出来的模型根本无法泛化，最后只能砍掉。但这其实是一个“想法正确但在错误时间点”的典型案例。
机器人项目：这在当时也是个吸金兽，虽然最后也被证明是死胡同，但它有一个副作用——逼着一群研究员学会了搞“大工程”。

正是这些失败，加上 Dota 2 项目的成功，让 OpenAI 从“小作坊”进化到了能驾驭大规模计算的工程战舰。

关于研究管理的“玄学”

随着 AI 变成大科学（Big Science），怎么管这帮天才成了一个难题。Schulman 观察到两种有效的风格：

手把手型（Hands-on）：管理者自己写代码，读下属的每一行代码，给极其具体的技术建议。这对执行力要求高的项目很有效。
放养型（Hands-off）：只做职业规划导师和心理按摩师，让研究员自己去撞南墙。这对探索性研究更合适。

Schulman 特别提到一个点：现在的 AI 实验室很容易陷入“追赶模式”。因为外面跑得太快了，新公司往往被迫先复现 SOTA（当前最佳水平），结果导致团队失去了做探索性、非主流研究的“肌肉记忆”和文化。他现在在 Thinking Machines 就在极力避免这点，哪怕是在追赶期，也要留出做“奇怪研究”的空间。

RL 的技术细节：为什么 Value Function 失宠了？

聊到技术细节，Schulman 抛出了几个很多从业者关心的点：

Value Functions（价值函数）去哪了？ 在如今的 RLHF（人类反馈强化学习）或短程推理任务中，价值函数似乎没起到“减小方差”的作用，所以大家都不怎么用了。但他预测，随着任务变得更复杂，这个老工具早晚会回归。
持续学习（Continual Learning）： 这是一个圣杯。目前来看，长上下文（Long Context） 是最简单粗暴的解法——把新知识塞进 Prompt 里就行。未来可能是“长上下文 + LoRA（轻量级微调）”的组合打法。
Co-training（协同训练）： 未来的趋势是生成器（Generator）和验证器（Verifier）一起训练。模型越会写代码，它也就越会检查代码，两者互为左脚踩右脚，螺旋上升。这比单纯让人去标数据要高效得多。

一个顶级研究员的一天

大家可能以为大神的一天是盯着屏幕狂敲代码，但 Schulman 揭秘了他的真实工作流：

咖啡馆时间：这是最核心的步骤。不带电脑，只带笔记本和笔，去咖啡馆这种有点白噪音的地方，把想法写下来。这是“去噪”的过程。
疯狂用 AI：他是 AI 编程的重度用户。用 Cursor 写代码，用 ChatGPT-Pro 搜论文（现在的 AI 搜文献比以前人肉搜快太多了），甚至写个只有一两段话的模糊想法，丢给 AI 让它帮忙“脑补”完善。
甚至在管理上也用：他建议大家把自己的研究笔记贴给 LLM，让它给反馈。

这一行的人变了：从“怪人”到“工程师”

2015 年搞 AI 的人，很多是有点古怪的理想主义者（Weirder）。而现在，因为 AI 成了风口，吸引了大量那种职业路径规划很清晰、传统的精英工程师。

这也导致了一个现象：工程能力（Engineering Skill）变得比研究品味（Research Taste）更重要。以前你可能要在 Jupyter Notebook 里从零手搓算法，现在你是在巨人的肩膀上修修补补。这导致真正具有突破性的“大想法”产生率可能并没有因为人数暴增而暴增，但实验的严谨度和从模拟到现实（Sim-to-Real）的落地能力确实变强了。

对 AGI 和未来的预测

AGI 什么时候来？ 工程师永远会低估项目难度，通常要乘个 3 倍才是真实时间。目前来看，AGI 可能会像自动驾驶一样，比最乐观的预测晚一些到来，但 AI 的自我进化（Self-improvement loop）是一个巨大的变量。
各大实验室会合作吗？ 目前并没有想象中那么剑拔弩张（虽然高层之间可能有些私人恩怨），在安全领域大家还是有共识的。

他的新公司 Thinking Machines 在做什么？

Schulman 现在的创业项目叫 Thinking Machines，他们刚刚发布了一个叫 Tinker 的产品。

简单来说，现在的微调服务要么太傻瓜（黑盒），要么太硬核（得自己管集群）。Tinker 想要做一个底层的微调 API，让那些懂行的专家能控制训练的每一个细节（就像刚才说的，你需要理解每一行代码），但又不需要去处理令人头秃的分布式系统和 GPU 维护问题。

这也是他给现在的研究员的建议：即使有了 AI 帮你写代码，你也得理解那该死的每一行代码在干什么，这才是做出顶级研究的前提。

带着答案考试：ChatGPT 其实可以“省钱”做#

早期 OpenAI：草台班子与“走错路”的探索#

关于研究管理的“玄学”#

RL 的技术细节：为什么 Value Function 失宠了？#

一个顶级研究员的一天#

这一行的人变了：从“怪人”到“工程师”#

对 AGI 和未来的预测#

他的新公司 Thinking Machines 在做什么？#