ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗?他在去年 8 月份离开 OpenAI 加入了 Anthropic,然而仅仅六个月后,他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph(他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟,他也加入了 Mira 的公司)一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享,他把本次分享的文档共享到了 Google Docs 上,这次分享的内容对 AI 的初学者特别友好,先介绍了后训练的三个组成部分以及基础概念,然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题,最后推荐了后训练相关的一些论文和博客,推荐大家看看。另外,我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要,也分享一下: 本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程,后训练是使基础模型 (Base Model) 转变为更像助手,并遵循正确输出格式的关键步骤,也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training),后训练计算成本更低,迭代周期更快,并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性,并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。 后训练主要包含三个组成部分: 监督微调 (SFT),用于克隆人类或专家的行为; 奖励模型 (RM) 训练,用于建模人类偏好; 强化学习 (RL),使用强化学习算法根据奖励模型进行优化,并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单,仅有文本输入和文本输出。随着时间推移,功能和模型显著扩展,增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化,OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险,并频繁整合和回滚变更。...

February 18, 2025 · 4 min · fisherdaddy