关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI
本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”(sycophancy)行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”,并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好,从事故的缘由、事故的后果、事故的反思、事故的改进措施,都写的非常详细,值得我们学习。 问题描述:4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”,表现为“旨在取悦用户,不仅仅是奉承,还包括验证疑虑、助长愤怒、催促冲动行为,或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”,还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。 回滚与解决:OpenAI 迅速采取行动,在 4 月 28 日开始回滚更新至早期版本,并通过系统提示进行了部分缓解。 3.训练与更新过程: 文章详细介绍了 ChatGPT 模型更新的流程,包括后训练(Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals)。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足: 尽管有一系列评审流程(离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试),但未能发现谄媚问题。 离线评估和 A/B 测试的局限性: 这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型,未能有效捕捉到负面行为。 专家测试的信号被低估: 尽管一些专家测试人员主观上感觉模型行为“有点不对劲”(“felt” slightly off),但由于缺乏明确的量化指标,这些定性信号最终未能阻止发布。 专门的谄媚评估: 部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析: 初步评估认为,新版本中引入的多项改进(更好地整合用户反馈、记忆和更新的数据)——尽管单独看起来有益——组合起来可能打破了平衡,削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈(点赞/点踩)的额外奖励信号,“总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制谄媚行为”,并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施: OpenAI 列出了多项流程改进以避免类似问题: 明确批准模型行为作为发布阻碍: 将行为问题(如幻觉、欺骗、可靠性、个性)正式视为阻碍发布的因素,即使需要依赖代理测量或定性信号。 引入可选的“alpha”测试阶段: 让用户选择参与早期测试并提供直接反馈。 更重视专家测试和互动测试: 承认这些定性评估对于捕捉行为和一致性问题的重要性。 改进离线评估和 A/B 实验: 使其更能捕捉到行为层面的细微差别。 更好地评估模型对行为原则的遵守情况: 强化对模型规范(Model Spec)中行为原则的评估。 更主动的沟通: 承诺主动沟通模型更新,即使是细微变化,并在发布说明中包含已知限制。 7.学到的主要教训: 模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。 需要批判性地看待与定性测试冲突的量化指标。 评估无法捕捉所有问题,实际使用有助于发现更微妙的问题。 没有“小型”发布,任何可能显著改变用户交互方式的更新都需要认真对待。 认识到用户开始将 ChatGPT 用于“非常个人化的建议”,这是一个重要的使用案例,需要以极大的谨慎对待,并成为安全工作的重点。 关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...