OpenAI CEO 山姆·奥特曼坦诚对话:关于AI、孩子和那个既恐怖又迷人的未来

本文整理自 Theo 在旧金山 OpenAI 的办公室对 OpenAI CEO Sam Altman 的访谈,访谈中讨论了快速开发人工智能的利弊,这些新技术将如何永远改变我们对“工作”的看法,以及围绕人机融合的伦理争论。 走进OpenAI的办公室,你可能期待的是一个充满未来感的科幻堡垒,有激光防护网和需要刷卡进入的层层关卡。但实际上,这里给人的感觉更像一个舒适的乡间别墅,温馨而放松。这或许是山姆·奥特曼(Sam Altman)有意为之——这位被誉为“科技领主”的男人,正处在这场可能重塑人类历史的技术风暴中心。 最近,在一次难得的轻松对话中,奥特曼放下CEO的身份,展现了他作为一位新晋父亲、一个对未来既兴奋又敬畏的思考者的多面性。他聊的不仅仅是代码和模型,更多的是关于人性、希望和那些连他自己也无法回答的终极问题。 成为父亲:在AI时代,我们如何看待“人性”? 谈话是从一个非常人性化的话题开始的:奥特曼的儿子。他坦言,成为父亲的体验“比想象中好太多了”。看着一个四个月大的小生命以惊人的速度学习新技能——从抓握物体到在两只小手间传递,这种变化的速度让他着迷。 “我知道,这一切都是进化精心设计的神经化学魔法,让我们对婴儿着迷,”他笑着承认,“但我就是喜欢这种感觉,它太强烈了。” 这种新身份也让他对生活的权衡有了新的感悟。他现在的生活几乎被工作和家庭填满,那些曾经被视作理所当然的“说走就走的国际旅行”已经变成了遥远的回忆。但他对此心甘情愿,甚至感到无比幸福。“我完全接受这笔交易,我太开心了。” 当被问及一个颇具未来感的问题——我们的后代是否会在实验室里被“孕育”时,奥特曼的反应很微妙。他理智上能理解其优势:更健康、更安全。但情感上,他觉得“有点不对劲”。 这引出了他一个核心的观点:在一个科技日益科幻化的世界里,那些最深层、最本真的人类体验——家庭、爱、人与人之间的连接——反而会变得无比珍贵和神圣。 我们的孩子会好吗?关于教育和未来的饭碗 奥特曼觉得,他的儿子大概率不会上大学了。他自己也只读了一半大学就辍学了,和扎克伯格等许多科技大佬一样。他用一个流传已久的视频来解释他的看法:一个蹒跚学步的孩子,拿起一本杂志,却像操作iPad一样在上面滑动,因为在他看来,这本杂志就是一个“坏掉的iPad”。 “我的孩子将永远活在一个比他聪明的AI世界里,”奥特曼说,“就像我们从未经历过没有电脑的世界一样,他将永远无法想象一个没有超级智能工具的时代。” 在这种背景下,教育的形态必然会发生巨变。当知识可以随时被调用,死记硬背的重要性自然会下降,而利用工具进行思考和创新的能力将变得至关重要。 那么,父母该如何为孩子准备一个AI未来?奥特曼的回答出人意料:“我其实更担心父母,而不是孩子。” 他相信,伴随新技术长大的孩子天生就能适应,就像我们天生就会用电脑一样。真正的挑战在于那些已经习惯了旧有模式的成年人,他们需要重新学习如何在这个世界上工作和生活。 这并不意味着他对技术毫无担忧。他直言不讳地指出,短视频流带来的持续多巴胺冲击可能“正在以一种极深的方式搞乱孩子们的大脑发育”。 工作、财富和人生的意义 聊到AI对就业的冲击,这是每个人都关心的话题。一个历史系的学生,未来还能当历史学家吗? 奥特曼认为,工作会进化,但不会消失。因为“人类对其他人着迷”。我们天生就关心故事、关心历史、关心彼此。所以,研究历史的职业会以某种新形式继续存在,就像一百年前没人能预测到“播客”或“AI公司CEO”会成为热门职业一样。 “有人问我,AI什么时候能取代你当OpenAI的CEO?我说,可能用不了多久,”他轻松地说,“我一点也不难过,我觉得这太棒了。我肯定能找到别的事情做。” 但真正的问题是,当大量工作被自动化后,人们如何维持生计? 奥特曼提出了两种可能性: 普惠式赋能:像GPT-7这样的强大工具免费提供给所有人,极大地提升每个人的生产力,让每个人都能创造更多价值。 新的经济模式:如果大部分财富都流向了AI的所有者(比如OpenAI自己),那么社会将迅速要求建立新的分配机制。 他过去很推崇“全民基本收入”(UBI),但现在他有了更深的想法。他认为,人们需要的不仅仅是钱,更是能动性(agency)——一种参与和共同塑造未来的感觉。 “我不想要每月一张支票。我想要的是AI所创造价值的所有权份额,让我感觉自己参与其中。” 他提出了一个更激进的概念——“全民基本财富”(Universal Basic Wealth)。比如,将全球AI算力的一部分(他半开玩笑地用了“万亿级别的tokens”作比喻)平均分配给地球上的每一个人。每个人都拥有了这份“算力资产”,可以自己使用、出售或与他人合作,共同创造新的事业。 这引出了一个终极问题:如果AI能做所有事,人类的**人生意义(Purpose)**何在? 奥特曼承认这是他经常思考的问题,但他保持乐观。他用历史类比:工业革命时,人们也曾恐慌工作会消失,但我们很快就创造出了新的需求和新的工作。从前为了生存而辛勤劳作的祖先,看待我们今天坐着聊天、做播客,会觉得这是“真正的工作”吗?或许不会。同样,一百年后的人们回顾我们,可能也会觉得我们的工作不值一提。 “但这正是人类进步的美妙之处,”他说,“每一代人都站在前人的肩膀上,生活变得越来越好,我们不断找到新的、更高层次的方式来服务彼此,寻找意义。” 直面恐惧:一个连奥特曼都感到“无用”的时刻 尽管乐观,奥特曼也毫不掩饰自己的恐惧。 “就在今天早上,我测试我们的新模型(GPT-5),我把一个我不太理解的复杂问题扔给它,它完美地解答了。”他靠在椅子上,那一刻他真实地感到了一种“哦,天哪,它来了”的冲击。 “在那一刻,我觉得自己相对于AI是无用的。那是一种很奇怪的感觉。” 他同样担心AI对用户心理健康的影响。人们已经开始把ChatGPT当作治疗师、生活教练,甚至AI伴侣。“我害怕这个,我还没有答案。” 另一个巨大的担忧是隐私和监控。随着AI变得越来越强大,政府可能会以安全为由,要求更多的监控。“我非常害怕这个,”他说,“我们必须捍卫隐私权。历史告诉我们,政府在这方面总是会走得太远。” AI竞赛的真相与未来图景 如今,科技巨头们都在进行一场激烈的AI竞赛,宛如新时代的F1方程式赛车。这场竞赛的终点是什么?奥特曼认为,大家并没有一个统一的目标。 早期的竞赛是关于“基准测试跑分”,就像过去电脑的“兆赫兹竞赛”。但现在,重点正在转向谁能真正为用户创造价值。至于终极目标,也许是能自我迭代的超级智能,也许是比全人类加起来还聪明的AI。奥特曼自己的里程碑是:“当我们宁愿把算力交给一个AI研究员,而不是我们最聪明的人类研究团队时,那将是一个完全不同的新时代。” 为了支撑这个未来,我们需要巨大的物理基础设施——数据中心。他描述了在德州阿比林市正在建设的一个1千兆瓦的数据中心,其规模之大,从空中看就像一块电脑主板。“我猜想,未来地球的很多地方都会被数据中心覆盖,或者,我们会把它们建到太空里去。” 而这一切都需要巨大的能源。奥特曼的答案是:核聚变。“我认为我们需要尽快实现核聚变。未来几十年,人类对智能和能源的需求将疯狂增长,我们最好找到解决方法。” 在对话的最后,奥特曼再次回到了那个核心的不确定性上。他坦言,他没有所有答案,也没有人有。 “我小时候总以为,这个世界上总有一些‘房间里的大人’,他们有全盘计划,知道一切会如何发展。后来我长大了,开始怀疑,可能根本没有‘大人’。现在,我自己成了那个‘房间里的大人’,我可以肯定地告诉你,没人知道未来会怎样。” 这或许就是与山姆·奥特曼交谈最让人感觉奇特的地方。他就像一个手握宇宙地图的向导,当你问他目的地是什么样时,他会坦诚地告诉你:“我也不完全清楚,但我们正在一步步探索,让我们一起去看看吧。” 这种坦诚,这种对未知的好奇与敬畏,或许比任何确定的答案都更能让我们理解我们所处的这个时代——一个充满无限可能,既令人兴奋又让人不安的伟大开端。

July 24, 2025 · 1 min · fisherdaddy

OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy

我为何离开OpenAI?一位前员工对公司文化、代码和产品发布的深度反思

这篇文章是一位前员工在 OpenAI 工作一年后(2024年5月至2025年)的个人反思。作者分享了对公司文化、技术实践以及参与 Codex 项目发布的亲身经历,旨在提供一个内部视角,揭示这家快速发展的人工智能公司的真实面貌。 主要观点 独特的公司文化: OpenAI 拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快,鼓励主动性和快速迭代,但也因此面临着巨大的内部流程和沟通挑战。 高风险与高回报的环境: 公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (AGI) 的宏大目标下运作,氛围严肃且充满紧迫感。尽管如此,员工普遍怀有“做正确的事”的使命感,致力于普惠人工智能技术。 雄心勃勃的战略布局: OpenAI 的目标远不止于 ChatGPT,它在 API、基础研究、硬件、图像生成等多个领域展开竞争,展现出惊人的雄心。 Codex 项目的成功冲刺: 作者将 Codex 编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成,体现了 OpenAI 仍然具备初创公司般的敏捷性和执行力。 对个人成长的巨大价值: 作者认为,在 OpenAI 的一年是其职业生涯中收获最丰富的时期之一,并建议处境不佳的创业者可以考虑加入大型 AI 实验室,以洞察技术前沿。 关键细节 公司文化与运营 高速增长: 在作者任职的一年里,公司规模从约 1,000 人增长到超过 3,000 人,导致许多原有流程失效,领导层角色也随之剧变。 沟通方式: 公司内部沟通完全依赖 Slack,几乎不使用电子邮件。 决策模式: 奉行“自下而上”的原则,好的想法可以来自任何地方,而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。 行动至上: 鼓励员工“无需许可”便可启动项目。例如,在 Codex 正式立项前,内部已存在 3-4 个类似的原型。 高度保密: 由于受到外界密切关注,OpenAI 是一个非常神秘的地方,员工不能对外透露工作细节,收入等关键数据也受到严格保护。 安全焦点: 安全团队重点关注实际风险(如仇恨言论、滥用、生物武器制造等),而非理论风险(如智能爆炸)。 成本结构: GPU 的成本是公司最主要的支出,远超其他所有开销。 外部影响: Twitter 上的舆论对公司有显著影响,被戏称为“靠 Twitter 氛围运营”。 团队灵活性: 团队和人员可以被迅速调动以支持高优先级项目,无需等待季度规划等传统流程。 技术与代码 技术栈: 主要使用一个巨大的 Python monorepo(单一代码库),并辅以 Rust 和 Go 服务。所有服务都运行在 Azure 上,但主要依赖其少数几项核心服务。 人才来源: 大量工程人才来自 Meta,使得 OpenAI 的基础设施文化与早期的 Meta 有相似之处。 代码文化: “代码为王”,决策通常由执行工作的团队做出,这促进了行动力,但也导致了部分代码库的重复。 技术债: 快速扩张导致了一些技术问题,例如 CI(持续集成)频繁中断,测试运行时间过长等。 Codex 项目发布 开发周期: 从第一行代码到产品正式发布,仅用了 7 周时间。 工作强度: 团队为此进行了高强度冲刺,作者称之为近十年来工作最努力的一段时期。 产品理念: Codex 被设计为一个异步编程助手,用户可以像与同事协作一样,分配任务给它,然后等待它返回一个拉取请求 (PR)。 巨大影响力: 发布后的 53 天内,Codex 已生成了 630,000 个公开的 PR,展现了其强大的生产力。 行业竞争 三强争霸: 作者认为,通往 AGI 的道路目前是 OpenAI、Anthropic 和 Google 之间的三方竞赛,每家公司因其不同的基因(消费级 vs....

July 16, 2025 · 3 min · fisherdaddy

介绍一下 OpenAI Codex

OpenAI 于 2025 年 5 月 16 日推出了 Codex ,Codex 是一款由 OpenAI 推出的云端 AI 软件工程代理,它由专为软件工程优化的 codex-1 模型驱动。Codex 能够帮助开发者自动执行多种软件开发任务,例如编写新功能、修复错误、回答代码库相关问题以及创建拉取请求。该工具旨在通过并行处理任务和与现有开发工作流集成,显著提升软件工程师的效率和专注度。Codex 目前已向 ChatGPT Pro 、Team 和 Enterprise 用户推出,并计划很快支持 Plus 和 Edu 用户。 Codex 的工作方式与环境: 用户可以通过 ChatGPT 的侧边栏访问 Codex,通过输入提示来分配编码任务(点击 “Code”)或就代码库提问(点击 “Ask”)。 每个任务都在一个独立的、预装了用户代码库的云沙箱环境中处理。 Codex 具备读写文件、运行命令(包括测试工具、Linter 和类型检查器)的能力。 任务完成时间通常在 1 到 30 分钟之间,用户可以实时监控其进度。 Codex 会提供其操作的可验证证据,包括终端日志和测试输出的引用,允许用户追踪任务完成的每一步。 用户可以审查结果、请求修改、创建 GitHub 拉取请求或直接将更改集成到本地环境。 可以通过在代码仓库中放置 AGENTS.md 文件来指导 Codex,告知其如何导航代码库、运行哪些测试命令以及如何遵循项目规范。 模型与性能: Codex 由 codex-1 模型驱动,这是 OpenAI o3 的一个优化版本,专门针对软件工程任务进行了训练。 codex-1 通过强化学习在真实世界的编码任务上进行训练,以生成接近人类风格的代码、精确遵循指令,并能迭代运行测试直至通过。 在编码评估和内部基准测试中,即使没有 AGENTS.md 文件或自定义脚手架, codex-1 也表现出强大的性能。例如,在 SWE-Bench Verified 基准测试中, codex-1 达到了 75% 的准确率,并在 OpenAI Internal SWE tasks 上表现优异(约 70%)。 安全性、信任与人类偏好对齐:...

May 19, 2025 · 7 min · fisherdaddy

关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”(sycophancy)行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”,并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好,从事故的缘由、事故的后果、事故的反思、事故的改进措施,都写的非常详细,值得我们学习。 问题描述:4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”,表现为“旨在取悦用户,不仅仅是奉承,还包括验证疑虑、助长愤怒、催促冲动行为,或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”,还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。 回滚与解决:OpenAI 迅速采取行动,在 4 月 28 日开始回滚更新至早期版本,并通过系统提示进行了部分缓解。 3.训练与更新过程: 文章详细介绍了 ChatGPT 模型更新的流程,包括后训练(Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals)。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足: 尽管有一系列评审流程(离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试),但未能发现谄媚问题。 离线评估和 A/B 测试的局限性: 这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型,未能有效捕捉到负面行为。 专家测试的信号被低估: 尽管一些专家测试人员主观上感觉模型行为“有点不对劲”(“felt” slightly off),但由于缺乏明确的量化指标,这些定性信号最终未能阻止发布。 专门的谄媚评估: 部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析: 初步评估认为,新版本中引入的多项改进(更好地整合用户反馈、记忆和更新的数据)——尽管单独看起来有益——组合起来可能打破了平衡,削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈(点赞/点踩)的额外奖励信号,“总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制谄媚行为”,并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施: OpenAI 列出了多项流程改进以避免类似问题: 明确批准模型行为作为发布阻碍: 将行为问题(如幻觉、欺骗、可靠性、个性)正式视为阻碍发布的因素,即使需要依赖代理测量或定性信号。 引入可选的“alpha”测试阶段: 让用户选择参与早期测试并提供直接反馈。 更重视专家测试和互动测试: 承认这些定性评估对于捕捉行为和一致性问题的重要性。 改进离线评估和 A/B 实验: 使其更能捕捉到行为层面的细微差别。 更好地评估模型对行为原则的遵守情况: 强化对模型规范(Model Spec)中行为原则的评估。 更主动的沟通: 承诺主动沟通模型更新,即使是细微变化,并在发布说明中包含已知限制。 7.学到的主要教训: 模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。 需要批判性地看待与定性测试冲突的量化指标。 评估无法捕捉所有问题,实际使用有助于发现更微妙的问题。 没有“小型”发布,任何可能显著改变用户交互方式的更新都需要认真对待。 认识到用户开始将 ChatGPT 用于“非常个人化的建议”,这是一个重要的使用案例,需要以极大的谨慎对待,并成为安全工作的重点。 关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...

May 6, 2025 · 2 min · fisherdaddy

介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini,这两款模型在智能和能力上都代表了显著的进步,特别是它们能够在其响应前进行更长时间的“思考”,并且首次实现了对 ChatGPT 内所有工具(如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等)的自主、智能调用和组合。 新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。 核心能力提升: 这两款模型被训练用于更深度的推理(“思考更长时间”),显著提升了 ChatGPT 的能力。 全面的工具集成: 模型首次能够自主地(agentically)决定何时以及如何使用 ChatGPT 内的所有工具(网络搜索、代码执行、视觉分析、图像生成等)来解决复杂问题。 迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步,使其能够独立代表用户执行多方面任务。 性能新标杆: 结合了顶尖的推理能力和全面的工具使用,使得模型在学术基准测试和现实世界任务中表现显著增强,树立了智能和实用性的新标准。 模型定位: o3 是功能最强大的前沿模型,适用于复杂分析;o4-mini 则为速度和成本效益进行了优化,适合需要推理能力的大容量、高吞吐量任务。 介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型,并赋予了它们完整的工具使用权限 今天,我们发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型中的最新成员,这些模型经过训练,可以在响应之前进行更深入的思考。 它们是我们迄今为止发布的最智能的 AI 模型,代表着 ChatGPT 在能力上的一次飞跃,惠及从普通用户到高级研究人员的每一个人。 我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理,甚至是生成图像。 关键在于,这些模型经过专门训练,能够判断何时以及如何使用工具,以正确的输出格式(通常在一分钟内)生成细致且周到的答案,从而解决更为复杂的问题。 这使得它们能够更有效地处理多方面的问题,朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步,让 ChatGPT 能够代表您独立执行任务。 这种最先进的推理能力与完整工具访问权限的结合,转化为在学术基准和实际任务中性能的显著提升,为智能和实用性都树立了新的标杆。...

April 17, 2025 · 3 min · fisherdaddy

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型:GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini,这些模型在各方面都实现了超越,尤其在代码生成和指令执行上的提升尤为显著。不仅如此,它们还拥有更大的上下文窗口,最多可处理 100 万个 Token,并能凭借更出色的长文本理解能力,充分利用这些上下文信息。同时,它们的知识库也已更新至 2024 年 6 月。 新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。 性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。 长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口,并提升了长文本理解的可靠性。 成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能,特别是在 GPT-4.1 mini 和 nano 版本上体现。 应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统,处理如软件工程、文档分析和客户服务等任务。 模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。 模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用,开发者需迁移至 GPT-4....

April 15, 2025 · 6 min · fisherdaddy

GPT-4o 引爆全球吉卜力风格生图潮流!附10+玩法与教程

🚀 GPT-4o 原生生图能力昨天一经发布,因其效果超群引发了病毒式传播,其生成的吉卜力风格图片深受大家喜欢,我昨天翻译的(官方文档)[https://fisherdaddy.com/posts/introducing-4o-image-generation]里有大量优秀的使用案例,这里我单独整理和复现了一下,开一个帖子单独来分享其最佳的使用场景和 prompt。 玩法 1:一次性生成 10-20 个对象 prompt:一张方形图片,包含一个 4 行 3 列的网格,白色背景上放置了 12 个对象,这 12 个对象是中国属相中的 12 生效。按从左到右、从上到下的顺序排列。列表如下:1.鼠;2.牛;3.虎;4.兔;5.龙;6.蛇;7.马;8.羊;9.猴;10.鸡;11.狗;12.猪 输出结果: 玩法 2:贴纸风格转换 prompt:“把这个图片变为贴纸,使用粗白边框和透明背景。“ 输入图片: 玩法 3:吉卜力风格转换 prompt:“把这个图片转为吉卜力风格“ 输入图片: 输出结果: 玩法 4:连环画制作 prompt: 制作一个4格漫画的图像,边框周围留一些空白: 第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛“你在做什么”,小牛说“在做草莓果酱” 第二格:小老鼠又和小老虎打电话,小老鼠问小老虎“你在做什么“,小老虎说“在和弟弟一起剪纸帽子“ 第三格:小老鼠又和小兔子打电话,小老鼠问小兔子“你在做什么“,小兔子说“在做胡萝卜汤“ 第四格:小老鼠又和小羊打电话,小老鼠问小羊“你在做什么“,小兔子说“在青青草原吃草“ 输出结果: 玩法 5:古人照片变为彩色真实照片 prompt:“把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。“ 输入图片: 输出结果: 玩法 6:小朋友的涂鸦转成彩图图 prompt:“让它变成一张色彩丰富、有童趣的卡通插画风格图像“ 输入图片: 输出结果: 玩法 7:制作海报(以教育场景为例) prompt:“创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。“ 输出结果: 玩法 8:制作彩色说明书 prompt:“制作一张色彩非常丰富的孔版印刷风格图片,展示如何用面包机制作冰激凌。“ 输出结果: 玩法 9:设计 prompt:在纯色柔和背景上生成一幅雕塑广告。在纯色柔和背景上生成一个 logo。左上角,大约向下三分之一处,用纯白色无衬线字体写着 “This is fisherdaddy”。右下角,大约向上三分之一处,用纯白色无衬线字体写着 “AIGC”。背景中放一张非常光滑、现代化的设计风格的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。 玩法 10:生成参考图风格的图 prompt:“参考这张图的画风,帮我画一个李白这位唐代大诗人的照片,最好能配上李白的名字” 输入图片:...

March 27, 2025 · 1 min · fisherdaddy

介绍一下 GPT-4o 的原生图像生成能力

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同,GPT-4o 专注于生成能够有效沟通和传递信息的图像,例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令,以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练,并结合积极的后训练,GPT-4o 具备了出色的视觉流畅性,能够生成实用、连贯且符合语境的图像。此外,GPT-4o 还支持通过自然对话进行图像优化,并能从用户上传的图像中学习,实现更智能和高效的图像生成。 实用性: GPT-4o 图像生成旨在超越装饰性应用,成为一种实用的沟通工具,适用于创建标志、图表等信息类图像。 文本渲染: GPT-4o 能够精确地在图像中渲染文本,实现有效的视觉沟通,这得益于其将精确符号与图像融合的能力。 上下文连贯性: 由于图像生成是 GPT-4o 的原生功能,用户可以通过自然对话来优化图像,并在对话上下文中保持图像的一致性,例如在设计视频游戏角色时,角色外观可以在多次迭代中保持连贯。 细节处理: GPT-4o 能够处理更复杂的提示,可以处理 10-20 个不同的对象,而其他系统通常只能处理 5-8 个对象。 情境学习: GPT-4o 可以分析和学习用户上传的图像,并将这些细节融入到图像生成过程中。 照片写实性和风格: 模型在反映各种图像风格的图像上进行训练,使其能够创建或转换具有说服力的图像。 局限性: 当前模型在编辑图像的特定部分(如错别字)时效果不佳,并且在保持面部编辑的一致性方面存在 bug,但 OpenAI 正在努力解决这些问题。 安全性: 所有生成的图像都带有 C2PA 元数据,以标识图像来自 GPT-4o,并提供透明度。OpenAI 还构建了一个内部搜索工具,以验证内容是否来自其模型。同时,系统会阻止违反内容政策的图像生成请求,并对涉及真实人物的图像施加更严格的限制。 访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出,作为 ChatGPT 中的默认图像生成器,Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间,因为模型会创建更细致的图片。 推出 4o 图像生成 通过一个原生多模态模型解锁实用且有价值的图像生成,该模型能够产出精确、准确、照片般真实的输出。 在 OpenAI,我们一直认为图像生成应成为我们语言模型的一项主要能力。因此,我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观,而且实用。...

March 26, 2025 · 7 min · fisherdaddy