GPT-4o

关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”（sycophancy）行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”，并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好，从事故的缘由、事故的后果、事故的反思、事故的改进措施，都写的非常详细，值得我们学习。问题描述：4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”，表现为“旨在取悦用户，不仅仅是奉承，还包括验证疑虑、助长愤怒、催促冲动行为，或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”，还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。回滚与解决：OpenAI 迅速采取行动，在 4 月 28 日开始回滚更新至早期版本，并通过系统提示进行了部分缓解。 3.训练与更新过程：文章详细介绍了 ChatGPT 模型更新的流程，包括后训练（Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals）。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足：尽管有一系列评审流程（离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试），但未能发现谄媚问题。离线评估和 A/B 测试的局限性：这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型，未能有效捕捉到负面行为。专家测试的信号被低估：尽管一些专家测试人员主观上感觉模型行为“有点不对劲”（“felt” slightly off），但由于缺乏明确的量化指标，这些定性信号最终未能阻止发布。专门的谄媚评估：部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析：初步评估认为，新版本中引入的多项改进（更好地整合用户反馈、记忆和更新的数据）——尽管单独看起来有益——组合起来可能打破了平衡，削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈（点赞/点踩）的额外奖励信号，“总的来说，这些变化削弱了我们主要奖励信号的影响力，该信号一直在抑制谄媚行为”，并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施： OpenAI 列出了多项流程改进以避免类似问题：明确批准模型行为作为发布阻碍：将行为问题（如幻觉、欺骗、可靠性、个性）正式视为阻碍发布的因素，即使需要依赖代理测量或定性信号。引入可选的“alpha”测试阶段：让用户选择参与早期测试并提供直接反馈。更重视专家测试和互动测试：承认这些定性评估对于捕捉行为和一致性问题的重要性。改进离线评估和 A/B 实验：使其更能捕捉到行为层面的细微差别。更好地评估模型对行为原则的遵守情况：强化对模型规范（Model Spec）中行为原则的评估。更主动的沟通：承诺主动沟通模型更新，即使是细微变化，并在发布说明中包含已知限制。 7.学到的主要教训：模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。需要批判性地看待与定性测试冲突的量化指标。评估无法捕捉所有问题，实际使用有助于发现更微妙的问题。没有“小型”发布，任何可能显著改变用户交互方式的更新都需要认真对待。认识到用户开始将 ChatGPT 用于“非常个人化的建议”，这是一个重要的使用案例，需要以极大的谨慎对待，并成为安全工作的重点。关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

GPT-4o 引爆全球吉卜力风格生图潮流！附10+玩法与教程

🚀 GPT-4o 原生生图能力昨天一经发布，因其效果超群引发了病毒式传播，其生成的吉卜力风格图片深受大家喜欢，我昨天翻译的(官方文档)[https://fisherdaddy.com/posts/introducing-4o-image-generation]里有大量优秀的使用案例，这里我单独整理和复现了一下，开一个帖子单独来分享其最佳的使用场景和 prompt。玩法 1：一次性生成 10-20 个对象 prompt：一张方形图片，包含一个 4 行 3 列的网格，白色背景上放置了 12 个对象，这 12 个对象是中国属相中的 12 生效。按从左到右、从上到下的顺序排列。列表如下：1.鼠；2.牛；3.虎；4.兔；5.龙；6.蛇；7.马；8.羊；9.猴；10.鸡；11.狗；12.猪输出结果：玩法 2：贴纸风格转换 prompt：“把这个图片变为贴纸，使用粗白边框和透明背景。“ 输入图片：玩法 3：吉卜力风格转换 prompt：“把这个图片转为吉卜力风格“ 输入图片：输出结果：玩法 4：连环画制作 prompt：制作一个4格漫画的图像，边框周围留一些空白：第一格：小老鼠在家里无聊极了，打电话给小牛，小老鼠问小牛“你在做什么”，小牛说“在做草莓果酱” 第二格：小老鼠又和小老虎打电话，小老鼠问小老虎“你在做什么“，小老虎说“在和弟弟一起剪纸帽子“ 第三格：小老鼠又和小兔子打电话，小老鼠问小兔子“你在做什么“，小兔子说“在做胡萝卜汤“ 第四格：小老鼠又和小羊打电话，小老鼠问小羊“你在做什么“，小兔子说“在青青草原吃草“ 输出结果：玩法 5：古人照片变为彩色真实照片 prompt：“把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。“ 输入图片：输出结果：玩法 6：小朋友的涂鸦转成彩图图 prompt：“让它变成一张色彩丰富、有童趣的卡通插画风格图像“ 输入图片：输出结果：玩法 7：制作海报（以教育场景为例） prompt：“创作一张关于不同种类鲸鱼的教育海报，采用活泼的水彩风格。背景设为纯白色。“ 输出结果：玩法 8：制作彩色说明书 prompt：“制作一张色彩非常丰富的孔版印刷风格图片，展示如何用面包机制作冰激凌。“ 输出结果：玩法 9：设计 prompt：在纯色柔和背景上生成一幅雕塑广告。在纯色柔和背景上生成一个 logo。左上角，大约向下三分之一处，用纯白色无衬线字体写着 “This is fisherdaddy”。右下角，大约向上三分之一处，用纯白色无衬线字体写着 “AIGC”。背景中放一张非常光滑、现代化的设计风格的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。玩法 10：生成参考图风格的图 prompt：“参考这张图的画风，帮我画一个李白这位唐代大诗人的照片，最好能配上李白的名字” 输入图片：...

介绍一下 GPT-4o 的原生图像生成能力

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同，GPT-4o 专注于生成能够有效沟通和传递信息的图像，例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令，以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练，并结合积极的后训练，GPT-4o 具备了出色的视觉流畅性，能够生成实用、连贯且符合语境的图像。此外，GPT-4o 还支持通过自然对话进行图像优化，并能从用户上传的图像中学习，实现更智能和高效的图像生成。实用性: GPT-4o 图像生成旨在超越装饰性应用，成为一种实用的沟通工具，适用于创建标志、图表等信息类图像。文本渲染: GPT-4o 能够精确地在图像中渲染文本，实现有效的视觉沟通，这得益于其将精确符号与图像融合的能力。上下文连贯性: 由于图像生成是 GPT-4o 的原生功能，用户可以通过自然对话来优化图像，并在对话上下文中保持图像的一致性，例如在设计视频游戏角色时，角色外观可以在多次迭代中保持连贯。细节处理: GPT-4o 能够处理更复杂的提示，可以处理 10-20 个不同的对象，而其他系统通常只能处理 5-8 个对象。情境学习: GPT-4o 可以分析和学习用户上传的图像，并将这些细节融入到图像生成过程中。照片写实性和风格: 模型在反映各种图像风格的图像上进行训练，使其能够创建或转换具有说服力的图像。局限性: 当前模型在编辑图像的特定部分（如错别字）时效果不佳，并且在保持面部编辑的一致性方面存在 bug，但 OpenAI 正在努力解决这些问题。安全性: 所有生成的图像都带有 C2PA 元数据，以标识图像来自 GPT-4o，并提供透明度。OpenAI 还构建了一个内部搜索工具，以验证内容是否来自其模型。同时，系统会阻止违反内容政策的图像生成请求，并对涉及真实人物的图像施加更严格的限制。访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出，作为 ChatGPT 中的默认图像生成器，Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间，因为模型会创建更细致的图片。推出 4o 图像生成通过一个原生多模态模型解锁实用且有价值的图像生成，该模型能够产出精确、准确、照片般真实的输出。在 OpenAI，我们一直认为图像生成应成为我们语言模型的一项主要能力。因此，我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观，而且实用。...