关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”(sycophancy)行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”,并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好,从事故的缘由、事故的后果、事故的反思、事故的改进措施,都写的非常详细,值得我们学习。 问题描述:4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”,表现为“旨在取悦用户,不仅仅是奉承,还包括验证疑虑、助长愤怒、催促冲动行为,或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”,还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。 回滚与解决:OpenAI 迅速采取行动,在 4 月 28 日开始回滚更新至早期版本,并通过系统提示进行了部分缓解。 3.训练与更新过程: 文章详细介绍了 ChatGPT 模型更新的流程,包括后训练(Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals)。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足: 尽管有一系列评审流程(离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试),但未能发现谄媚问题。 离线评估和 A/B 测试的局限性: 这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型,未能有效捕捉到负面行为。 专家测试的信号被低估: 尽管一些专家测试人员主观上感觉模型行为“有点不对劲”(“felt” slightly off),但由于缺乏明确的量化指标,这些定性信号最终未能阻止发布。 专门的谄媚评估: 部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析: 初步评估认为,新版本中引入的多项改进(更好地整合用户反馈、记忆和更新的数据)——尽管单独看起来有益——组合起来可能打破了平衡,削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈(点赞/点踩)的额外奖励信号,“总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制谄媚行为”,并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施: OpenAI 列出了多项流程改进以避免类似问题: 明确批准模型行为作为发布阻碍: 将行为问题(如幻觉、欺骗、可靠性、个性)正式视为阻碍发布的因素,即使需要依赖代理测量或定性信号。 引入可选的“alpha”测试阶段: 让用户选择参与早期测试并提供直接反馈。 更重视专家测试和互动测试: 承认这些定性评估对于捕捉行为和一致性问题的重要性。 改进离线评估和 A/B 实验: 使其更能捕捉到行为层面的细微差别。 更好地评估模型对行为原则的遵守情况: 强化对模型规范(Model Spec)中行为原则的评估。 更主动的沟通: 承诺主动沟通模型更新,即使是细微变化,并在发布说明中包含已知限制。 7.学到的主要教训: 模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。 需要批判性地看待与定性测试冲突的量化指标。 评估无法捕捉所有问题,实际使用有助于发现更微妙的问题。 没有“小型”发布,任何可能显著改变用户交互方式的更新都需要认真对待。 认识到用户开始将 ChatGPT 用于“非常个人化的建议”,这是一个重要的使用案例,需要以极大的谨慎对待,并成为安全工作的重点。 关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

May 6, 2025 · 2 min · fisherdaddy

GPT-4o 引爆全球吉卜力风格生图潮流!附10+玩法与教程

🚀 GPT-4o 原生生图能力昨天一经发布,因其效果超群引发了病毒式传播,其生成的吉卜力风格图片深受大家喜欢,我昨天翻译的(官方文档)[https://fisherdaddy.com/posts/introducing-4o-image-generation]里有大量优秀的使用案例,这里我单独整理和复现了一下,开一个帖子单独来分享其最佳的使用场景和 prompt。 玩法 1:一次性生成 10-20 个对象 prompt:一张方形图片,包含一个 4 行 3 列的网格,白色背景上放置了 12 个对象,这 12 个对象是中国属相中的 12 生效。按从左到右、从上到下的顺序排列。列表如下:1.鼠;2.牛;3.虎;4.兔;5.龙;6.蛇;7.马;8.羊;9.猴;10.鸡;11.狗;12.猪 输出结果: 玩法 2:贴纸风格转换 prompt:“把这个图片变为贴纸,使用粗白边框和透明背景。“ 输入图片: 玩法 3:吉卜力风格转换 prompt:“把这个图片转为吉卜力风格“ 输入图片: 输出结果: 玩法 4:连环画制作 prompt: 制作一个4格漫画的图像,边框周围留一些空白: 第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛“你在做什么”,小牛说“在做草莓果酱” 第二格:小老鼠又和小老虎打电话,小老鼠问小老虎“你在做什么“,小老虎说“在和弟弟一起剪纸帽子“ 第三格:小老鼠又和小兔子打电话,小老鼠问小兔子“你在做什么“,小兔子说“在做胡萝卜汤“ 第四格:小老鼠又和小羊打电话,小老鼠问小羊“你在做什么“,小兔子说“在青青草原吃草“ 输出结果: 玩法 5:古人照片变为彩色真实照片 prompt:“把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。“ 输入图片: 输出结果: 玩法 6:小朋友的涂鸦转成彩图图 prompt:“让它变成一张色彩丰富、有童趣的卡通插画风格图像“ 输入图片: 输出结果: 玩法 7:制作海报(以教育场景为例) prompt:“创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。“ 输出结果: 玩法 8:制作彩色说明书 prompt:“制作一张色彩非常丰富的孔版印刷风格图片,展示如何用面包机制作冰激凌。“ 输出结果: 玩法 9:设计 prompt:在纯色柔和背景上生成一幅雕塑广告。在纯色柔和背景上生成一个 logo。左上角,大约向下三分之一处,用纯白色无衬线字体写着 “This is fisherdaddy”。右下角,大约向上三分之一处,用纯白色无衬线字体写着 “AIGC”。背景中放一张非常光滑、现代化的设计风格的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。 玩法 10:生成参考图风格的图 prompt:“参考这张图的画风,帮我画一个李白这位唐代大诗人的照片,最好能配上李白的名字” 输入图片:...

March 27, 2025 · 1 min · fisherdaddy

介绍一下 GPT-4o 的原生图像生成能力

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同,GPT-4o 专注于生成能够有效沟通和传递信息的图像,例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令,以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练,并结合积极的后训练,GPT-4o 具备了出色的视觉流畅性,能够生成实用、连贯且符合语境的图像。此外,GPT-4o 还支持通过自然对话进行图像优化,并能从用户上传的图像中学习,实现更智能和高效的图像生成。 实用性: GPT-4o 图像生成旨在超越装饰性应用,成为一种实用的沟通工具,适用于创建标志、图表等信息类图像。 文本渲染: GPT-4o 能够精确地在图像中渲染文本,实现有效的视觉沟通,这得益于其将精确符号与图像融合的能力。 上下文连贯性: 由于图像生成是 GPT-4o 的原生功能,用户可以通过自然对话来优化图像,并在对话上下文中保持图像的一致性,例如在设计视频游戏角色时,角色外观可以在多次迭代中保持连贯。 细节处理: GPT-4o 能够处理更复杂的提示,可以处理 10-20 个不同的对象,而其他系统通常只能处理 5-8 个对象。 情境学习: GPT-4o 可以分析和学习用户上传的图像,并将这些细节融入到图像生成过程中。 照片写实性和风格: 模型在反映各种图像风格的图像上进行训练,使其能够创建或转换具有说服力的图像。 局限性: 当前模型在编辑图像的特定部分(如错别字)时效果不佳,并且在保持面部编辑的一致性方面存在 bug,但 OpenAI 正在努力解决这些问题。 安全性: 所有生成的图像都带有 C2PA 元数据,以标识图像来自 GPT-4o,并提供透明度。OpenAI 还构建了一个内部搜索工具,以验证内容是否来自其模型。同时,系统会阻止违反内容政策的图像生成请求,并对涉及真实人物的图像施加更严格的限制。 访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出,作为 ChatGPT 中的默认图像生成器,Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间,因为模型会创建更细致的图片。 推出 4o 图像生成 通过一个原生多模态模型解锁实用且有价值的图像生成,该模型能够产出精确、准确、照片般真实的输出。 在 OpenAI,我们一直认为图像生成应成为我们语言模型的一项主要能力。因此,我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观,而且实用。...

March 26, 2025 · 7 min · fisherdaddy