RL Infra

本文整理自 OpenAI Infa 核心贡献者翁家翌的专访。以下为原视频精华，本文由我和 Gemini 3 Pro 共同整理而成。开始之前先介绍一下翁家翌，他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，而他最主要的贡献，三个词：强化学习、post-training、infra。这个访谈里，涉及到翁家翌的童年经历、他在清华与 CMU 的求学与成长，以及他在 2022 年加入 OpenAI 后的亲历等等。如果你对 OpenAI 或者 OpenAI 的研究者感兴趣，这个访谈值得一看。如果你仔细翻看 OpenAI 近年来每一篇重磅论文——从 GPT-3.5 到 GPT-4，再到最新的 GPT-4o，你会发现一个名字像那枚不可或缺的螺丝钉一样，稳定地出现在贡献者名单里：翁家翌（Jiayi Weng）。他是 OpenAI 强化学习（RL）团队的核心成员，但他并不把自己定义为那种在大模型里“炼丹”的科学家。相反，他更愿意做一个“卖铲子”的人。在硅谷这场被誉为人类历史上最激烈的科技军备竞赛中，他亲手搭建了 OpenAI 内部最核心的 Post-training（后训练）基础设施。这个从清华园走出的年轻人，是如何一步步走到风暴中心的？这一路并非全是光环，更有不少“误打误撞”的宿命感。 “童子功”：为了投资未来而卷翁家翌的“开挂”人生似乎拿的是标准剧本，但内核却有点不一样。小学一年级开始搞奥数，因为他发现自己做题不需要过脑子，那是纯粹的生理上的快感。初二自学高中数学，初三啃微积分。但他并不是因为那是“任务”，而是因为他在初中就产生了一个极其早熟的想法：学习是一种对未来的投资。与其在简单的刷题上浪费生命，不如提前掌握工具，构建自己的知识树。到了高中，这种“投资”转向了编程。然而，这一路并非坦途。作为福建省队的选手，他在信息学竞赛（OI）中拿了全省倒数第一（铜牌），这对他是个巨大的打击。在那个充满不确定性的高二，他面临着艰难抉择：是签一个保底的上海交大，还是赌一把清华的降分录取？他在巨大的恐惧中咬牙选了后者。最终，他赌赢了，走进了清华计算机系。清华岁月：打破信息差的“慈善家” 在清华，翁家翌干了两件让他在校内“封神”的事，但初衷却仅仅是——哪怕亏本，也要做点对自己和他人有意义的事。第一件事是开源作业。在竞争激烈的清华，信息差是巨大的壁垒。往年的试题、老师的偏好、作业的参考，这些“秘籍”往往只在小圈子流传。翁家翌看不惯，他觉得每个人都该有平等的知情权。于是，他把自己收集的所有“上古资料”和自己的作业代码全部整理开源。尽管这遭到了部分学长学姐的反对，但他坚持认为：后人不应该把时间浪费在重复造轮子上。第二件事是天授（Tianshou）。大四那年，因为觉得当时流行的强化学习库（如RLlib）代码在那不断“腐化”，臃肿得没法用，他干脆推倒重来。仅仅花了不到两周，他手撸了一个优雅、轻量级的强化学习框架——“天授”。没有任何功利的论文发表目的，纯粹是因为“自己用得不爽”。哪怕后来在申请出国时遭遇疫情，他在家还要不仅面对未知的焦虑，还顺手写了一个美签预约查询系统。这个纯公益的项目最终获得了上千万的点击量，帮助了无数留学生。对他来说，人生的游戏结算分数，不是GPA，而是死后有多少人记得你的名字。误打误撞进OpenAI：工业界不需要“炼丹师” 2022年，从CMU硕士毕业的翁家翌面临找工作的抉择。他手里拿着Google、HFT（高频交易）公司和OpenAI的Offer。那是ChatGPT发布前夕，OpenAI还只有两三百人，远没有现在的神圣光环。但他选择了OpenAI，原因很硬核：只有这里在正儿八经地用强化学习解决问题。面试他的人是RLHF（基于人类反馈的强化学习）的奠基人之一John Schulman。面试题很难，但他做得太快，以至于最后John不得不让他展示怎么修Bug。进入OpenAI后，他经历了一次认知的重塑。在学术界，搞强化学习往往是在简单的游戏环境（如Atari）里比分数，大家都在“过拟合”环境，像炼丹一样调参。翁家翌极其讨厌这种玄学，他甚至称之为“生理性排斥”。但在OpenAI，特别是在引入了Google来的几位大佬（Barret, Luke, Liam）后，团队的哲学变了：不要迷信天才的算法（Idea），要迷信工程的迭代速度。如果你的基础设施（Infrastructure）足够强，能让你从一周做30次实验变成一周做300次实验，那么即便你的点子很平庸，成功的概率也会呈线性上升。这就是翁家翌的定位——搞Infra（基建）。他为OpenAI搭建了整套后训练的强化学习框架。所有的模型，从GPT-4到GPT-4o，都要在他搭建的这条“流水线”上跑一遍。 “谁修的Bug越多，谁的模型性能就越好。” 这就是大模型背后的残酷真相。在风暴中心：压力、宿命与迷茫别以为在OpenAI工作就是每天和Altman谈笑风生。真实的日常是：修不完的Bug，写不完的史山代码，以及巨大的身心压力。...