本文整理自 OpenAI Infa 核心贡献者翁家翌的专访。以下为原视频精华,本文由我和 Gemini 3 Pro 共同整理而成。

开始之前先介绍一下翁家翌,他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5,而他最主要的贡献,三个词:强化学习、post-training、infra。这个访谈里,涉及到翁家翌的童年经历、他在清华与 CMU 的求学与成长,以及他在 2022 年加入 OpenAI 后的亲历等等。如果你对 OpenAI 或者 OpenAI 的研究者感兴趣,这个访谈值得一看。

如果你仔细翻看 OpenAI 近年来每一篇重磅论文——从 GPT-3.5 到 GPT-4,再到最新的 GPT-4o,你会发现一个名字像那枚不可或缺的螺丝钉一样,稳定地出现在贡献者名单里:翁家翌(Jiayi Weng)

他是 OpenAI 强化学习(RL)团队的核心成员,但他并不把自己定义为那种在大模型里“炼丹”的科学家。相反,他更愿意做一个“卖铲子”的人。在硅谷这场被誉为人类历史上最激烈的科技军备竞赛中,他亲手搭建了 OpenAI 内部最核心的 Post-training(后训练)基础设施。

这个从清华园走出的年轻人,是如何一步步走到风暴中心的?这一路并非全是光环,更有不少“误打误撞”的宿命感。

“童子功”:为了投资未来而卷

翁家翌的“开挂”人生似乎拿的是标准剧本,但内核却有点不一样。

小学一年级开始搞奥数,因为他发现自己做题不需要过脑子,那是纯粹的生理上的快感。初二自学高中数学,初三啃微积分。但他并不是因为那是“任务”,而是因为他在初中就产生了一个极其早熟的想法:学习是一种对未来的投资。 与其在简单的刷题上浪费生命,不如提前掌握工具,构建自己的知识树。

到了高中,这种“投资”转向了编程。然而,这一路并非坦途。作为福建省队的选手,他在信息学竞赛(OI)中拿了全省倒数第一(铜牌),这对他是个巨大的打击。在那个充满不确定性的高二,他面临着艰难抉择:是签一个保底的上海交大,还是赌一把清华的降分录取?

他在巨大的恐惧中咬牙选了后者。最终,他赌赢了,走进了清华计算机系。

清华岁月:打破信息差的“慈善家”

在清华,翁家翌干了两件让他在校内“封神”的事,但初衷却仅仅是——哪怕亏本,也要做点对自己和他人有意义的事。

第一件事是开源作业。 在竞争激烈的清华,信息差是巨大的壁垒。往年的试题、老师的偏好、作业的参考,这些“秘籍”往往只在小圈子流传。翁家翌看不惯,他觉得每个人都该有平等的知情权。于是,他把自己收集的所有“上古资料”和自己的作业代码全部整理开源。尽管这遭到了部分学长学姐的反对,但他坚持认为:后人不应该把时间浪费在重复造轮子上。

第二件事是天授(Tianshou)。 大四那年,因为觉得当时流行的强化学习库(如RLlib)代码在那不断“腐化”,臃肿得没法用,他干脆推倒重来。仅仅花了不到两周,他手撸了一个优雅、轻量级的强化学习框架——“天授”。没有任何功利的论文发表目的,纯粹是因为“自己用得不爽”。

哪怕后来在申请出国时遭遇疫情,他在家还要不仅面对未知的焦虑,还顺手写了一个美签预约查询系统。这个纯公益的项目最终获得了上千万的点击量,帮助了无数留学生。

对他来说,人生的游戏结算分数,不是GPA,而是死后有多少人记得你的名字

误打误撞进OpenAI:工业界不需要“炼丹师”

2022年,从CMU硕士毕业的翁家翌面临找工作的抉择。他手里拿着Google、HFT(高频交易)公司和OpenAI的Offer。那是ChatGPT发布前夕,OpenAI还只有两三百人,远没有现在的神圣光环。

但他选择了OpenAI,原因很硬核:只有这里在正儿八经地用强化学习解决问题。

面试他的人是RLHF(基于人类反馈的强化学习)的奠基人之一John Schulman。面试题很难,但他做得太快,以至于最后John不得不让他展示怎么修Bug。

进入OpenAI后,他经历了一次认知的重塑。

在学术界,搞强化学习往往是在简单的游戏环境(如Atari)里比分数,大家都在“过拟合”环境,像炼丹一样调参。翁家翌极其讨厌这种玄学,他甚至称之为“生理性排斥”。

但在OpenAI,特别是在引入了Google来的几位大佬(Barret, Luke, Liam)后,团队的哲学变了:不要迷信天才的算法(Idea),要迷信工程的迭代速度。

如果你的基础设施(Infrastructure)足够强,能让你从一周做30次实验变成一周做300次实验,那么即便你的点子很平庸,成功的概率也会呈线性上升。

这就是翁家翌的定位——搞Infra(基建)。他为OpenAI搭建了整套后训练的强化学习框架。所有的模型,从GPT-4到GPT-4o,都要在他搭建的这条“流水线”上跑一遍。

“谁修的Bug越多,谁的模型性能就越好。” 这就是大模型背后的残酷真相。

在风暴中心:压力、宿命与迷茫

别以为在OpenAI工作就是每天和Altman谈笑风生。真实的日常是:修不完的Bug,写不完的史山代码,以及巨大的身心压力。

为了赶GPT-4的发布,他曾经连续工作,甚至一度因为心悸进了急诊室(ER),结果医生说没事,就是累的。

在这个人才密度极高的地方,翁家翌看到了很多真相:

  1. 组织架构的熵增是必然的。 即便是OpenAI,人多了也会变慢,也会有沟通损耗。现在的生死线不是不仅是算法创新,而是Infrastructure的吞吐量
  2. 必须祛魅。 外界传得神乎其神的Q*、GPT-5,在内部看来,往往就是把最简单的事情做到极致。并没有什么黑魔法(Black Magic),有的只是对Bug的零容忍和极致的工程化。
  3. Sam Altman不可替代。 也就是那场著名的“宫斗”大戏。虽然技术人员更喜欢纯粹的技术领袖(如Ilya),但在商业化和资源整合上,Sam是那个能搞定GPU和融资的关键人物。

聊到未来,翁家翌展现出一种理工男特有的悲观与通透。

他是一个坚定的决定论者(Determinism)。他相信宇宙大爆炸的那一刻,一切剧本都已经写好。我们当下的每一个念头、每一句话,不过是物理定律演化的结果。

“如果有来生,或者十年后,你想做什么?”

这个时候,这位刚刚还在谈论改变世界的工程师,流露出了一丝迷茫。 “我现在其实挺迷茫的。” 他坦诚道。曾经他以为搞通了RL Infra就是一切,但当这成为了日复一日的确定性工作,当他在2022年就意识到RLHF的本质并做到了巅峰后,他反而在寻找下一个兴奋点。

也许是赚够钱提前退休,也许是去探索那个著名的难题:如何预测未来? 尽管预测未来可能意味着人类价值观的崩塌,但他依然对那个终极答案充满好奇。

在节目的最后,翁家翌说出的愿望朴素得惊人:“投资未来,让那个时候的自己,有选择做自己想做的事情的权利。”

哪怕世界是注定的,他依然想在剧本里,为自己争取那一点点“逃逸”的自由。