本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。
如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久?
OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。
这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。
带着答案考试:ChatGPT 其实可以“省钱”做
回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。
Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。
今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。
早期 OpenAI:草台班子与“走错路”的探索
现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。
当时有没有走弯路?当然有。
- Universe 项目:这是当时一个野心勃勃的计划,想把全网所有的游戏、网页操作都做成 RL(强化学习)环境,训练一个通用智能体。听起来很对,对吧?但这想法超前了大概十年。当时的基建太差,训练出来的模型根本无法泛化,最后只能砍掉。但这其实是一个“想法正确但在错误时间点”的典型案例。
- 机器人项目:这在当时也是个吸金兽,虽然最后也被证明是死胡同,但它有一个副作用——逼着一群研究员学会了搞“大工程”。
正是这些失败,加上 Dota 2 项目的成功,让 OpenAI 从“小作坊”进化到了能驾驭大规模计算的工程战舰。
关于研究管理的“玄学”
随着 AI 变成大科学(Big Science),怎么管这帮天才成了一个难题。Schulman 观察到两种有效的风格:
- 手把手型(Hands-on):管理者自己写代码,读下属的每一行代码,给极其具体的技术建议。这对执行力要求高的项目很有效。
- 放养型(Hands-off):只做职业规划导师和心理按摩师,让研究员自己去撞南墙。这对探索性研究更合适。
Schulman 特别提到一个点:现在的 AI 实验室很容易陷入“追赶模式”。因为外面跑得太快了,新公司往往被迫先复现 SOTA(当前最佳水平),结果导致团队失去了做探索性、非主流研究的“肌肉记忆”和文化。他现在在 Thinking Machines 就在极力避免这点,哪怕是在追赶期,也要留出做“奇怪研究”的空间。
RL 的技术细节:为什么 Value Function 失宠了?
聊到技术细节,Schulman 抛出了几个很多从业者关心的点:
- Value Functions(价值函数)去哪了? 在如今的 RLHF(人类反馈强化学习)或短程推理任务中,价值函数似乎没起到“减小方差”的作用,所以大家都不怎么用了。但他预测,随着任务变得更复杂,这个老工具早晚会回归。
- 持续学习(Continual Learning): 这是一个圣杯。目前来看,长上下文(Long Context) 是最简单粗暴的解法——把新知识塞进 Prompt 里就行。未来可能是“长上下文 + LoRA(轻量级微调)”的组合打法。
- Co-training(协同训练): 未来的趋势是生成器(Generator)和验证器(Verifier)一起训练。模型越会写代码,它也就越会检查代码,两者互为左脚踩右脚,螺旋上升。这比单纯让人去标数据要高效得多。
一个顶级研究员的一天
大家可能以为大神的一天是盯着屏幕狂敲代码,但 Schulman 揭秘了他的真实工作流:
- 咖啡馆时间:这是最核心的步骤。不带电脑,只带笔记本和笔,去咖啡馆这种有点白噪音的地方,把想法写下来。这是“去噪”的过程。
- 疯狂用 AI:他是 AI 编程的重度用户。用 Cursor 写代码,用 ChatGPT-Pro 搜论文(现在的 AI 搜文献比以前人肉搜快太多了),甚至写个只有一两段话的模糊想法,丢给 AI 让它帮忙“脑补”完善。
- 甚至在管理上也用:他建议大家把自己的研究笔记贴给 LLM,让它给反馈。
这一行的人变了:从“怪人”到“工程师”
2015 年搞 AI 的人,很多是有点古怪的理想主义者(Weirder)。而现在,因为 AI 成了风口,吸引了大量那种职业路径规划很清晰、传统的精英工程师。
这也导致了一个现象:工程能力(Engineering Skill)变得比研究品味(Research Taste)更重要。以前你可能要在 Jupyter Notebook 里从零手搓算法,现在你是在巨人的肩膀上修修补补。这导致真正具有突破性的“大想法”产生率可能并没有因为人数暴增而暴增,但实验的严谨度和从模拟到现实(Sim-to-Real)的落地能力确实变强了。
对 AGI 和未来的预测
- AGI 什么时候来? 工程师永远会低估项目难度,通常要乘个 3 倍才是真实时间。目前来看,AGI 可能会像自动驾驶一样,比最乐观的预测晚一些到来,但 AI 的自我进化(Self-improvement loop)是一个巨大的变量。
- 各大实验室会合作吗? 目前并没有想象中那么剑拔弩张(虽然高层之间可能有些私人恩怨),在安全领域大家还是有共识的。
他的新公司 Thinking Machines 在做什么?
Schulman 现在的创业项目叫 Thinking Machines,他们刚刚发布了一个叫 Tinker 的产品。
简单来说,现在的微调服务要么太傻瓜(黑盒),要么太硬核(得自己管集群)。Tinker 想要做一个底层的微调 API,让那些懂行的专家能控制训练的每一个细节(就像刚才说的,你需要理解每一行代码),但又不需要去处理令人头秃的分布式系统和 GPU 维护问题。
这也是他给现在的研究员的建议:即使有了 AI 帮你写代码,你也得理解那该死的每一行代码在干什么,这才是做出顶级研究的前提。