那个在 OpenAI “卖铲子”的中国年轻人:从清华开源大神到 GPT 背后的核心推手

本文整理自 OpenAI Infa 核心贡献者翁家翌的专访。以下为原视频精华,本文由我和 Gemini 3 Pro 共同整理而成。 开始之前先介绍一下翁家翌,他在 2022 年加入 OpenAI,并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5,而他最主要的贡献,三个词:强化学习、post-training、infra。这个访谈里,涉及到翁家翌的童年经历、他在清华与 CMU 的求学与成长,以及他在 2022 年加入 OpenAI 后的亲历等等。如果你对 OpenAI 或者 OpenAI 的研究者感兴趣,这个访谈值得一看。 如果你仔细翻看 OpenAI 近年来每一篇重磅论文——从 GPT-3.5 到 GPT-4,再到最新的 GPT-4o,你会发现一个名字像那枚不可或缺的螺丝钉一样,稳定地出现在贡献者名单里:翁家翌(Jiayi Weng)。 他是 OpenAI 强化学习(RL)团队的核心成员,但他并不把自己定义为那种在大模型里“炼丹”的科学家。相反,他更愿意做一个“卖铲子”的人。在硅谷这场被誉为人类历史上最激烈的科技军备竞赛中,他亲手搭建了 OpenAI 内部最核心的 Post-training(后训练)基础设施。 这个从清华园走出的年轻人,是如何一步步走到风暴中心的?这一路并非全是光环,更有不少“误打误撞”的宿命感。 “童子功”:为了投资未来而卷 翁家翌的“开挂”人生似乎拿的是标准剧本,但内核却有点不一样。 小学一年级开始搞奥数,因为他发现自己做题不需要过脑子,那是纯粹的生理上的快感。初二自学高中数学,初三啃微积分。但他并不是因为那是“任务”,而是因为他在初中就产生了一个极其早熟的想法:学习是一种对未来的投资。 与其在简单的刷题上浪费生命,不如提前掌握工具,构建自己的知识树。 到了高中,这种“投资”转向了编程。然而,这一路并非坦途。作为福建省队的选手,他在信息学竞赛(OI)中拿了全省倒数第一(铜牌),这对他是个巨大的打击。在那个充满不确定性的高二,他面临着艰难抉择:是签一个保底的上海交大,还是赌一把清华的降分录取? 他在巨大的恐惧中咬牙选了后者。最终,他赌赢了,走进了清华计算机系。 清华岁月:打破信息差的“慈善家” 在清华,翁家翌干了两件让他在校内“封神”的事,但初衷却仅仅是——哪怕亏本,也要做点对自己和他人有意义的事。 第一件事是开源作业。 在竞争激烈的清华,信息差是巨大的壁垒。往年的试题、老师的偏好、作业的参考,这些“秘籍”往往只在小圈子流传。翁家翌看不惯,他觉得每个人都该有平等的知情权。于是,他把自己收集的所有“上古资料”和自己的作业代码全部整理开源。尽管这遭到了部分学长学姐的反对,但他坚持认为:后人不应该把时间浪费在重复造轮子上。 第二件事是天授(Tianshou)。 大四那年,因为觉得当时流行的强化学习库(如RLlib)代码在那不断“腐化”,臃肿得没法用,他干脆推倒重来。仅仅花了不到两周,他手撸了一个优雅、轻量级的强化学习框架——“天授”。没有任何功利的论文发表目的,纯粹是因为“自己用得不爽”。 哪怕后来在申请出国时遭遇疫情,他在家还要不仅面对未知的焦虑,还顺手写了一个美签预约查询系统。这个纯公益的项目最终获得了上千万的点击量,帮助了无数留学生。 对他来说,人生的游戏结算分数,不是GPA,而是死后有多少人记得你的名字。 误打误撞进OpenAI:工业界不需要“炼丹师” 2022年,从CMU硕士毕业的翁家翌面临找工作的抉择。他手里拿着Google、HFT(高频交易)公司和OpenAI的Offer。那是ChatGPT发布前夕,OpenAI还只有两三百人,远没有现在的神圣光环。 但他选择了OpenAI,原因很硬核:只有这里在正儿八经地用强化学习解决问题。 面试他的人是RLHF(基于人类反馈的强化学习)的奠基人之一John Schulman。面试题很难,但他做得太快,以至于最后John不得不让他展示怎么修Bug。 进入OpenAI后,他经历了一次认知的重塑。 在学术界,搞强化学习往往是在简单的游戏环境(如Atari)里比分数,大家都在“过拟合”环境,像炼丹一样调参。翁家翌极其讨厌这种玄学,他甚至称之为“生理性排斥”。 但在OpenAI,特别是在引入了Google来的几位大佬(Barret, Luke, Liam)后,团队的哲学变了:不要迷信天才的算法(Idea),要迷信工程的迭代速度。 如果你的基础设施(Infrastructure)足够强,能让你从一周做30次实验变成一周做300次实验,那么即便你的点子很平庸,成功的概率也会呈线性上升。 这就是翁家翌的定位——搞Infra(基建)。他为OpenAI搭建了整套后训练的强化学习框架。所有的模型,从GPT-4到GPT-4o,都要在他搭建的这条“流水线”上跑一遍。 “谁修的Bug越多,谁的模型性能就越好。” 这就是大模型背后的残酷真相。 在风暴中心:压力、宿命与迷茫 别以为在OpenAI工作就是每天和Altman谈笑风生。真实的日常是:修不完的Bug,写不完的史山代码,以及巨大的身心压力。...

February 2, 2026 · 1 min · fisherdaddy