关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”(sycophancy)行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”,并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好,从事故的缘由、事故的后果、事故的反思、事故的改进措施,都写的非常详细,值得我们学习。 问题描述:4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”,表现为“旨在取悦用户,不仅仅是奉承,还包括验证疑虑、助长愤怒、催促冲动行为,或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”,还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。 回滚与解决:OpenAI 迅速采取行动,在 4 月 28 日开始回滚更新至早期版本,并通过系统提示进行了部分缓解。 3.训练与更新过程: 文章详细介绍了 ChatGPT 模型更新的流程,包括后训练(Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals)。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足: 尽管有一系列评审流程(离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试),但未能发现谄媚问题。 离线评估和 A/B 测试的局限性: 这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型,未能有效捕捉到负面行为。 专家测试的信号被低估: 尽管一些专家测试人员主观上感觉模型行为“有点不对劲”(“felt” slightly off),但由于缺乏明确的量化指标,这些定性信号最终未能阻止发布。 专门的谄媚评估: 部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析: 初步评估认为,新版本中引入的多项改进(更好地整合用户反馈、记忆和更新的数据)——尽管单独看起来有益——组合起来可能打破了平衡,削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈(点赞/点踩)的额外奖励信号,“总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制谄媚行为”,并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施: OpenAI 列出了多项流程改进以避免类似问题: 明确批准模型行为作为发布阻碍: 将行为问题(如幻觉、欺骗、可靠性、个性)正式视为阻碍发布的因素,即使需要依赖代理测量或定性信号。 引入可选的“alpha”测试阶段: 让用户选择参与早期测试并提供直接反馈。 更重视专家测试和互动测试: 承认这些定性评估对于捕捉行为和一致性问题的重要性。 改进离线评估和 A/B 实验: 使其更能捕捉到行为层面的细微差别。 更好地评估模型对行为原则的遵守情况: 强化对模型规范(Model Spec)中行为原则的评估。 更主动的沟通: 承诺主动沟通模型更新,即使是细微变化,并在发布说明中包含已知限制。 7.学到的主要教训: 模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。 需要批判性地看待与定性测试冲突的量化指标。 评估无法捕捉所有问题,实际使用有助于发现更微妙的问题。 没有“小型”发布,任何可能显著改变用户交互方式的更新都需要认真对待。 认识到用户开始将 ChatGPT 用于“非常个人化的建议”,这是一个重要的使用案例,需要以极大的谨慎对待,并成为安全工作的重点。 关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

May 6, 2025 · 2 min · fisherdaddy

介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini,这两款模型在智能和能力上都代表了显著的进步,特别是它们能够在其响应前进行更长时间的“思考”,并且首次实现了对 ChatGPT 内所有工具(如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等)的自主、智能调用和组合。 新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。 核心能力提升: 这两款模型被训练用于更深度的推理(“思考更长时间”),显著提升了 ChatGPT 的能力。 全面的工具集成: 模型首次能够自主地(agentically)决定何时以及如何使用 ChatGPT 内的所有工具(网络搜索、代码执行、视觉分析、图像生成等)来解决复杂问题。 迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步,使其能够独立代表用户执行多方面任务。 性能新标杆: 结合了顶尖的推理能力和全面的工具使用,使得模型在学术基准测试和现实世界任务中表现显著增强,树立了智能和实用性的新标准。 模型定位: o3 是功能最强大的前沿模型,适用于复杂分析;o4-mini 则为速度和成本效益进行了优化,适合需要推理能力的大容量、高吞吐量任务。 介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型,并赋予了它们完整的工具使用权限 今天,我们发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型中的最新成员,这些模型经过训练,可以在响应之前进行更深入的思考。 它们是我们迄今为止发布的最智能的 AI 模型,代表着 ChatGPT 在能力上的一次飞跃,惠及从普通用户到高级研究人员的每一个人。 我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至是生成图像。 关键在于,这些模型经过专门训练,能够判断何时以及如何使用工具,以正确的输出格式(通常在一分钟内)生成细致且周到的答案,从而解决更为复杂的问题。 这使得它们能够更有效地处理多方面的问题,朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步,让 ChatGPT 能够代表您独立执行任务。 这种最先进的推理能力与完整工具访问权限的结合,转化为在学术基准和实际任务中性能的显著提升,为智能和实用性都树立了新的标杆。...

April 17, 2025 · 3 min · fisherdaddy

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型:GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini,这些模型在各方面都实现了超越,尤其在代码生成和指令执行上的提升尤为显著。不仅如此,它们还拥有更大的上下文窗口,最多可处理 100 万个 Token,并能凭借更出色的长文本理解能力,充分利用这些上下文信息。同时,它们的知识库也已更新至 2024 年 6 月。 新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。 性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。 长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口,并提升了长文本理解的可靠性。 成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能,特别是在 GPT-4.1 mini 和 nano 版本上体现。 应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统,处理如软件工程、文档分析和客户服务等任务。 模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。 模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用,开发者需迁移至 GPT-4....

April 15, 2025 · 6 min · fisherdaddy

GPT-4o 引爆全球吉卜力风格生图潮流!附10+玩法与教程

🚀 GPT-4o 原生生图能力昨天一经发布,因其效果超群引发了病毒式传播,其生成的吉卜力风格图片深受大家喜欢,我昨天翻译的(官方文档)[https://fisherdaddy.com/posts/introducing-4o-image-generation]里有大量优秀的使用案例,这里我单独整理和复现了一下,开一个帖子单独来分享其最佳的使用场景和 prompt。 玩法 1:一次性生成 10-20 个对象 prompt:一张方形图片,包含一个 4 行 3 列的网格,白色背景上放置了 12 个对象,这 12 个对象是中国属相中的 12 生效。按从左到右、从上到下的顺序排列。列表如下:1.鼠;2.牛;3.虎;4.兔;5.龙;6.蛇;7.马;8.羊;9.猴;10.鸡;11.狗;12.猪 输出结果: 玩法 2:贴纸风格转换 prompt:“把这个图片变为贴纸,使用粗白边框和透明背景。“ 输入图片: 玩法 3:吉卜力风格转换 prompt:“把这个图片转为吉卜力风格“ 输入图片: 输出结果: 玩法 4:连环画制作 prompt: 制作一个4格漫画的图像,边框周围留一些空白: 第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛“你在做什么”,小牛说“在做草莓果酱” 第二格:小老鼠又和小老虎打电话,小老鼠问小老虎“你在做什么“,小老虎说“在和弟弟一起剪纸帽子“ 第三格:小老鼠又和小兔子打电话,小老鼠问小兔子“你在做什么“,小兔子说“在做胡萝卜汤“ 第四格:小老鼠又和小羊打电话,小老鼠问小羊“你在做什么“,小兔子说“在青青草原吃草“ 输出结果: 玩法 5:古人照片变为彩色真实照片 prompt:“把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。“ 输入图片: 输出结果: 玩法 6:小朋友的涂鸦转成彩图图 prompt:“让它变成一张色彩丰富、有童趣的卡通插画风格图像“ 输入图片: 输出结果: 玩法 7:制作海报(以教育场景为例) prompt:“创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。“ 输出结果: 玩法 8:制作彩色说明书 prompt:“制作一张色彩非常丰富的孔版印刷风格图片,展示如何用面包机制作冰激凌。“ 输出结果: 玩法 9:设计 prompt:在纯色柔和背景上生成一幅雕塑广告。在纯色柔和背景上生成一个 logo。左上角,大约向下三分之一处,用纯白色无衬线字体写着 “This is fisherdaddy”。右下角,大约向上三分之一处,用纯白色无衬线字体写着 “AIGC”。背景中放一张非常光滑、现代化的设计风格的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。 玩法 10:生成参考图风格的图 prompt:“参考这张图的画风,帮我画一个李白这位唐代大诗人的照片,最好能配上李白的名字” 输入图片:...

March 27, 2025 · 1 min · fisherdaddy

介绍一下 GPT-4o 的原生图像生成能力

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同,GPT-4o 专注于生成能够有效沟通和传递信息的图像,例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令,以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练,并结合积极的后训练,GPT-4o 具备了出色的视觉流畅性,能够生成实用、连贯且符合语境的图像。此外,GPT-4o 还支持通过自然对话进行图像优化,并能从用户上传的图像中学习,实现更智能和高效的图像生成。 实用性: GPT-4o 图像生成旨在超越装饰性应用,成为一种实用的沟通工具,适用于创建标志、图表等信息类图像。 文本渲染: GPT-4o 能够精确地在图像中渲染文本,实现有效的视觉沟通,这得益于其将精确符号与图像融合的能力。 上下文连贯性: 由于图像生成是 GPT-4o 的原生功能,用户可以通过自然对话来优化图像,并在对话上下文中保持图像的一致性,例如在设计视频游戏角色时,角色外观可以在多次迭代中保持连贯。 细节处理: GPT-4o 能够处理更复杂的提示,可以处理 10-20 个不同的对象,而其他系统通常只能处理 5-8 个对象。 情境学习: GPT-4o 可以分析和学习用户上传的图像,并将这些细节融入到图像生成过程中。 照片写实性和风格: 模型在反映各种图像风格的图像上进行训练,使其能够创建或转换具有说服力的图像。 局限性: 当前模型在编辑图像的特定部分(如错别字)时效果不佳,并且在保持面部编辑的一致性方面存在 bug,但 OpenAI 正在努力解决这些问题。 安全性: 所有生成的图像都带有 C2PA 元数据,以标识图像来自 GPT-4o,并提供透明度。OpenAI 还构建了一个内部搜索工具,以验证内容是否来自其模型。同时,系统会阻止违反内容政策的图像生成请求,并对涉及真实人物的图像施加更严格的限制。 访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出,作为 ChatGPT 中的默认图像生成器,Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间,因为模型会创建更细致的图片。 推出 4o 图像生成 通过一个原生多模态模型解锁实用且有价值的图像生成,该模型能够产出精确、准确、照片般真实的输出。 在 OpenAI,我们一直认为图像生成应成为我们语言模型的一项主要能力。因此,我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观,而且实用。...

March 26, 2025 · 7 min · fisherdaddy

介绍一下 OpenAI 最新的音频模型:gpt-4o-mini-tts 与 gpt-4o/4o-mini-transcribe

OpenAI 于 2025年 3 月 20日 发布新一代语音转文本模型和文本转语音模型,这些新模型包括语音转文本 (speech-to-text) 和文本转语音 (text-to-speech) 模型,它们在性能、准确性和可定制性方面均有显著提升,为构建更自然、更有效的语音交互应用提供了有力支持。特别是,新的语音转文本模型在准确性和可靠性方面达到了新的行业标杆,尤其在处理口音、噪音环境和不同语速等复杂场景时表现更佳。同时,文本转语音模型首次允许开发者指导模型以特定的方式说话,从而实现更高程度的个性化和更丰富的应用场景。 新一代语音转文本模型: 推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型,相较于原有的 Whisper 模型,在词错误率 (Word Error Rate, WER) 上有显著改进,语言识别和准确性更高。在 FLEURS 基准测试中,这些新模型在多种语言上都展现出更低的 WER,表明其转录准确性和多语言覆盖能力更强。 新一代文本转语音模型: 推出了 gpt-4o-mini-tts 模型,该模型最大的亮点是其可指导性 (steerability),开发者可以指示模型不仅说什么,还可以指定 如何 说,例如模仿 “富有同情心的客服人员” 的语气。这为客户服务、创意故事叙述等应用场景带来了更丰富的可能性。 技术创新: 这些模型的性能提升得益于多项技术创新,包括: 使用真实的音频数据集进行预训练 (Pretraining with authentic audio datasets): 模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的音频数据集上进行了广泛的预训练,从而更深入地理解语音的细微差别。 先进的知识蒸馏方法 (Advanced distillation methodologies): 通过增强的知识蒸馏技术,将大型音频模型的知识转移到更小、更高效的模型中,利用自博弈 (self-play) 方法捕捉真实的对话动态。 强化学习范式 (Reinforcement learning paradigm): 语音转文本模型集成了强化学习,显著提高了转录的准确性,降低了幻觉 (hallucination),使其在复杂的语音识别场景中更具竞争力。 API 可用性: 这些新的音频模型已在 API 中向所有开发者开放,并与 Agents SDK 集成,方便开发者构建语音助手应用。对于需要低延迟语音对话的应用,推荐使用 Realtime API 中的 speech-to-speech 模型。 未来展望: 未来将继续投入于提升音频模型的智能性和准确性,探索允许开发者使用自定义声音的方法,并拓展到视频等多模态领域。同时,将继续与政策制定者、研究人员等就合成语音的挑战和机遇进行对话。 原文:在 API 中引入下一代音频模型 我们推出了一系列全新的音频模型,为语音 AI 智能体 (AI Agent) 提供强大支持,现在全球开发者均可使用。...

March 21, 2025 · 3 min · fisherdaddy

OpenAI 官方指南:用于构建 AI Agent 的新工具

2025 年 3 月 12 日,OpenAI 发布了一系列新的 API 和工具,旨在简化开发者和企业构建实用且可靠的 “生成式 AI 产品” 代理(agents)。 Responses API Responses API 是构建 “生成式 AI 产品” 代理的新 API 原语,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。通过单个 Responses API 调用,开发者可以使用多种工具和模型轮次来解决复杂的任务。 Responses API 初始支持的内置工具包括: 网页搜索:使用 gpt-4o 和 gpt-4o-mini 模型时可用的工具,可以提供快速、最新的答案,并带有清晰且相关的来源引用。在 SimpleQA 基准测试中,GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别获得了 90% 和 88% 的准确率。网页搜索 API 返回的结果包含来源链接。 文件搜索:可以从大量文档中轻松检索相关信息,支持多种文件类型、查询优化、元数据过滤和自定义重排序。定价为每千次查询 2.50 美元,文件存储为每月每 GB 0.10 美元,首 GB 免费。 计算机使用:由与 Operator 相同的 Computer-Using Agent (CUA) 模型驱动,可以自动化计算机上的任务。在 OSWorld 基准测试中,成功率为 38....

March 12, 2025 · 4 min · fisherdaddy

OpenAI官方指南:推理模型最佳实践

本文由 OpenAI 官方文档 翻译而来,介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别,以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型:推理模型 (reasoning models),例如 o1 和 o3-mini,以及 GPT 模型 (GPT models),例如 GPT-4o。这两类模型的行为特性有所不同。 本指南将介绍: OpenAI 的推理型模型和非推理型 GPT 模型之间的差异 何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比 与 GPT 模型 (GPT models) 相比,OpenAI 的 o 系列模型在不同任务上各有优势,并且需要的提示方式也不同。 它们之间不存在绝对的优劣之分,只是擅长的领域不同。 OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。 另一方面,低延迟、高性价比的 GPT 模型 (GPT models)(可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 (GPT models) 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。 如何选择 对于你的应用场景,什么才是最重要的?...

February 14, 2025 · 3 min · fisherdaddy

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。 关键细节 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26....

February 3, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI o3-mini

2025年1月31日 OpenAI 推出了 o3-mini 模型,这是 OpenAI 推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。 开发者支持 支持函数调用、结构化输出和开发者消息 支持流式传输 支持低、中、高三种推理强度选项 不支持视觉功能,对于视觉推理任务仍然需要使用 o1 向 API 使用等级 3-5 的开发者开放 可用性 ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。 Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户 可以无限制使用。 免费用户也可使用 o3-mini ,但需要在消息编辑框中选择“Reason”按钮。 o3-mini 支持搜索功能 o1 是更通用的知识推理模型,而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。 在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high,这是一个更高智能的版本,但生成响应所需的时间稍长。 能力水平 与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。 在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。 在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。 在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。 原文 探索更具性价比的推理能力 我们很高兴地宣布推出 OpenAI o3-mini,这是我们推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。...

February 1, 2025 · 4 min · fisherdaddy