那个在 OpenAI “卖铲子”的中国年轻人：从清华开源大神到 GPT 背后的核心推手

本文整理自 OpenAI Infa 核心贡献者翁家翌的专访。以下为原视频精华，本文由我和 Gemini 3 Pro 共同整理而成。

开始之前先介绍一下翁家翌，他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，而他最主要的贡献，三个词：强化学习、post-training、infra。这个访谈里，涉及到翁家翌的童年经历、他在清华与 CMU 的求学与成长，以及他在 2022 年加入 OpenAI 后的亲历等等。如果你对 OpenAI 或者 OpenAI 的研究者感兴趣，这个访谈值得一看。

如果你仔细翻看 OpenAI 近年来每一篇重磅论文——从 GPT-3.5 到 GPT-4，再到最新的 GPT-4o，你会发现一个名字像那枚不可或缺的螺丝钉一样，稳定地出现在贡献者名单里：翁家翌（Jiayi Weng）。

他是 OpenAI 强化学习（RL）团队的核心成员，但他并不把自己定义为那种在大模型里“炼丹”的科学家。相反，他更愿意做一个“卖铲子”的人。在硅谷这场被誉为人类历史上最激烈的科技军备竞赛中，他亲手搭建了 OpenAI 内部最核心的 Post-training（后训练）基础设施。

这个从清华园走出的年轻人，是如何一步步走到风暴中心的？这一路并非全是光环，更有不少“误打误撞”的宿命感。

“童子功”：为了投资未来而卷

翁家翌的“开挂”人生似乎拿的是标准剧本，但内核却有点不一样。

小学一年级开始搞奥数，因为他发现自己做题不需要过脑子，那是纯粹的生理上的快感。初二自学高中数学，初三啃微积分。但他并不是因为那是“任务”，而是因为他在初中就产生了一个极其早熟的想法：学习是一种对未来的投资。 与其在简单的刷题上浪费生命，不如提前掌握工具，构建自己的知识树。

到了高中，这种“投资”转向了编程。然而，这一路并非坦途。作为福建省队的选手，他在信息学竞赛（OI）中拿了全省倒数第一（铜牌），这对他是个巨大的打击。在那个充满不确定性的高二，他面临着艰难抉择：是签一个保底的上海交大，还是赌一把清华的降分录取？

他在巨大的恐惧中咬牙选了后者。最终，他赌赢了，走进了清华计算机系。

清华岁月：打破信息差的“慈善家”

在清华，翁家翌干了两件让他在校内“封神”的事，但初衷却仅仅是——哪怕亏本，也要做点对自己和他人有意义的事。

第一件事是开源作业。在竞争激烈的清华，信息差是巨大的壁垒。往年的试题、老师的偏好、作业的参考，这些“秘籍”往往只在小圈子流传。翁家翌看不惯，他觉得每个人都该有平等的知情权。于是，他把自己收集的所有“上古资料”和自己的作业代码全部整理开源。尽管这遭到了部分学长学姐的反对，但他坚持认为：后人不应该把时间浪费在重复造轮子上。

第二件事是天授（Tianshou）。大四那年，因为觉得当时流行的强化学习库（如RLlib）代码在那不断“腐化”，臃肿得没法用，他干脆推倒重来。仅仅花了不到两周，他手撸了一个优雅、轻量级的强化学习框架——“天授”。没有任何功利的论文发表目的，纯粹是因为“自己用得不爽”。

哪怕后来在申请出国时遭遇疫情，他在家还要不仅面对未知的焦虑，还顺手写了一个美签预约查询系统。这个纯公益的项目最终获得了上千万的点击量，帮助了无数留学生。

对他来说，人生的游戏结算分数，不是GPA，而是死后有多少人记得你的名字。

误打误撞进OpenAI：工业界不需要“炼丹师”

2022年，从CMU硕士毕业的翁家翌面临找工作的抉择。他手里拿着Google、HFT（高频交易）公司和OpenAI的Offer。那是ChatGPT发布前夕，OpenAI还只有两三百人，远没有现在的神圣光环。

但他选择了OpenAI，原因很硬核：只有这里在正儿八经地用强化学习解决问题。

面试他的人是RLHF（基于人类反馈的强化学习）的奠基人之一John Schulman。面试题很难，但他做得太快，以至于最后John不得不让他展示怎么修Bug。

进入OpenAI后，他经历了一次认知的重塑。

在学术界，搞强化学习往往是在简单的游戏环境（如Atari）里比分数，大家都在“过拟合”环境，像炼丹一样调参。翁家翌极其讨厌这种玄学，他甚至称之为“生理性排斥”。

但在OpenAI，特别是在引入了Google来的几位大佬（Barret, Luke, Liam）后，团队的哲学变了：不要迷信天才的算法（Idea），要迷信工程的迭代速度。

如果你的基础设施（Infrastructure）足够强，能让你从一周做30次实验变成一周做300次实验，那么即便你的点子很平庸，成功的概率也会呈线性上升。

这就是翁家翌的定位——搞Infra（基建）。他为OpenAI搭建了整套后训练的强化学习框架。所有的模型，从GPT-4到GPT-4o，都要在他搭建的这条“流水线”上跑一遍。

“谁修的Bug越多，谁的模型性能就越好。” 这就是大模型背后的残酷真相。

在风暴中心：压力、宿命与迷茫

别以为在OpenAI工作就是每天和Altman谈笑风生。真实的日常是：修不完的Bug，写不完的史山代码，以及巨大的身心压力。

为了赶GPT-4的发布，他曾经连续工作，甚至一度因为心悸进了急诊室（ER），结果医生说没事，就是累的。

在这个人才密度极高的地方，翁家翌看到了很多真相：

组织架构的熵增是必然的。 即便是OpenAI，人多了也会变慢，也会有沟通损耗。现在的生死线不是不仅是算法创新，而是Infrastructure的吞吐量。
必须祛魅。 外界传得神乎其神的Q*、GPT-5，在内部看来，往往就是把最简单的事情做到极致。并没有什么黑魔法（Black Magic），有的只是对Bug的零容忍和极致的工程化。
Sam Altman不可替代。 也就是那场著名的“宫斗”大戏。虽然技术人员更喜欢纯粹的技术领袖（如Ilya），但在商业化和资源整合上，Sam是那个能搞定GPU和融资的关键人物。

聊到未来，翁家翌展现出一种理工男特有的悲观与通透。

他是一个坚定的决定论者（Determinism）。他相信宇宙大爆炸的那一刻，一切剧本都已经写好。我们当下的每一个念头、每一句话，不过是物理定律演化的结果。

“如果有来生，或者十年后，你想做什么？”

这个时候，这位刚刚还在谈论改变世界的工程师，流露出了一丝迷茫。 “我现在其实挺迷茫的。” 他坦诚道。曾经他以为搞通了RL Infra就是一切，但当这成为了日复一日的确定性工作，当他在2022年就意识到RLHF的本质并做到了巅峰后，他反而在寻找下一个兴奋点。

也许是赚够钱提前退休，也许是去探索那个著名的难题：如何预测未来？ 尽管预测未来可能意味着人类价值观的崩塌，但他依然对那个终极答案充满好奇。

在节目的最后，翁家翌说出的愿望朴素得惊人：“投资未来，让那个时候的自己，有选择做自己想做的事情的权利。”

哪怕世界是注定的，他依然想在剧本里，为自己争取那一点点“逃逸”的自由。

“童子功”：为了投资未来而卷#

清华岁月：打破信息差的“慈善家”#

误打误撞进OpenAI：工业界不需要“炼丹师”#

在风暴中心：压力、宿命与迷茫#

“童子功”：为了投资未来而卷

清华岁月：打破信息差的“慈善家”

误打误撞进OpenAI：工业界不需要“炼丹师”

在风暴中心：压力、宿命与迷茫