介绍一下 OpenAI 推出的一款由 GPT-5 驱动的代理式安全研究工具—— Aardvark

2025 年 10 月 30 号,OpenAI 推出了一款由 GPT-5 驱动的代理式安全研究工具 —— Aardvark。它旨在帮助开发者和安全团队大规模地发现并修复软件中的安全漏洞,从而在网络安全攻防战中为防御方提供优势。 Aardvark 是一款自主运行的 AI 代理,它能够像人类安全专家一样,通过分析代码、理解其行为并利用工具来主动发现和修复漏洞。它的核心目标是改变当前软件安全领域的格局,将天平向防御方倾斜。通过自动化漏洞的发现、验证和修复流程,Aardvark 能够帮助团队在不拖慢开发速度的前提下,持续提升代码的安全性。目前,该产品已进入私有测试阶段。 关键细节 工作原理与流程 Aardvark 的工作流程分为四个主要阶段,不依赖于模糊测试等传统技术,而是利用大语言模型的推理能力: 分析 (Analysis): 首先,Aardvark 会分析整个代码仓库,生成一个威胁模型,以理解项目的安全目标和设计。 提交扫描 (Commit scanning): 当有新的代码提交时,它会根据威胁模型检查代码变更,以发现潜在漏洞。它会用易于理解的方式逐步解释漏洞,并对代码进行注释。 验证 (Validation): 在发现潜在漏洞后,Aardvark 会在一个隔离的沙盒环境中尝试触发该漏洞,以确认其可利用性,从而确保提供给用户的洞察是准确且低误报的。 修补 (Patching): Aardvark 与 OpenAI Codex 集成,为发现的每个漏洞生成建议的修复补丁,供开发人员审查和一键应用。 实际影响与表现 内部应用与测试: Aardvark 已在 OpenAI 内部代码库和外部合作伙伴中运行数月,成功发现了多个重要漏洞。 基准测试: 在包含已知和人为引入漏洞的“黄金”代码库测试中,Aardvark 成功识别了 92% 的漏洞,展示了其高效性和实用性。 解决的问题: 软件漏洞已成为系统性风险,仅 2024 年就报告了超过 40,000 个 CVE。测试表明,约 1.2% 的代码提交会引入新的错误。 对开源社区的贡献 Aardvark 已被应用于开源项目,并成功发现了多个漏洞,其中 10 个已获得 CVE (通用漏洞披露) 编号。 OpenAI 承诺回馈开源社区,计划为部分非商业开源项目提供免费扫描服务。 公司还更新了其对外协调披露政策,采取了对开发者更友好的协作方式。 当前状态 Aardvark 目前已开放私有测试版,OpenAI 邀请感兴趣的组织或开源项目申请加入,以帮助团队进一步优化其性能和用户体验。...

November 3, 2025 · 1 min · fisherdaddy

深度解读微软 CEO 萨提亚·纳德拉与 OpenAI CEO 山姆·奥特曼的对话

本文来自于 OpenAI 重组后 OpenAI CEO 山姆·奥特曼和微软 CEO 萨提亚·纳德拉的播客。内容涵盖了双方的战略合作关系、OpenAI 的独特组织架构、对算力的巨大需求、AI 技术的未来发展方向以及其对经济和社会的深远影响。 关键细节 合作关系与财务条款 投资与股权:Microsoft 自 2019 年起向 OpenAI 投资约 134 亿美元,目前持有其约 27% 的股份。 独特的组织架构:OpenAI 采用了一种创新结构,顶层是一个非营利组织,其使命是确保 AGI (通用人工智能) 惠及全人类。该非营利组织已获得价值 1300 亿美元的 OpenAI 股票,成为全球最大的非营利组织之一。 商业协议: 模型独占性:OpenAI 的核心模型(Stateless APIs)在 2032 年前将独家在 Microsoft Azure 平台上提供。 收入分成:OpenAI 需要向 Microsoft 支付一定比例的收入分成,该协议同样持续到 2032 年或 AGI 被验证实现为止。 财务状况:Sam Altman 透露,OpenAI 的收入远超外界报道的 130 亿美元,并且正在以极快的速度增长。公司计划在未来四到五年内投入 1.4 万亿美元用于算力建设。 算力挑战与未来展望 当前瓶颈:增长的主要限制是算力不足。Satya Nadella 指出,目前的瓶颈已从芯片供应转向电力供应和数据中心建设速度。 未来供需:双方都认为算力市场未来某个时间点会出现供过于求的“算力过剩(compute glut)”情况,但对于这一情况出现的时间点(2-3 年或 5-6 年)看法不一。 成本与效率:AI 智能单位成本的快速下降,以及软件层面的优化(如推理堆栈的改进),将是推动 AI 普及的关键。 AI 的未来发展与社会影响 技术前沿:Sam Altman 预测,到 2026 年,AI 将能在编码(Codex)、科学发现(即使是微小的发现)、机器人技术和新型消费电子设备等领域取得重要进展。 监管问题:两位 CEO 都对美国各州制定不同 AI 法规的“碎片化(patchwork)”做法表示担忧,认为这会阻碍初创企业的发展,并呼吁建立统一的联邦层面监管框架。 对就业和生产力的影响:AI 将改变人们的工作方式,使员工能借助 AI 工具获得更高的生产力。公司虽然会增加员工数量,但人均产出的杠杆效应会远超以往。 美国再工业化:科技公司在数据中心和半导体领域的巨额投资(数万亿美元级别),被视为推动美国“再工业化”的重要力量,不仅能吸引外国资本,还能创造大量本地就业和供应链机会。 原文 一场重量级的对话,一边是微软的掌舵人萨提亚·纳德拉(Satya Nadella),另一边是OpenAI的创始人山姆·奥特曼(Sam Altman)。这场看似轻松的炉边谈话,却揭开了当今科技界最重要、也最被外界好奇的合作关系的神秘面纱。...

November 3, 2025 · 1 min · fisherdaddy

OpenAI Atlas 工程团队:我们如何构建 OWL,我们基于 ChatGPT 的浏览器 Atlas 背后的新架构

为了纠正大家都认为 ChatGPT Atlas 是 Chromium 的套壳,ChatGPT Atlas 工程团队编写本文来说明 ChatGPT Atlas 的底层有很多创新之处。虽然 Atlas 使用的是 Chromium,但它的构建方式与通常的 Chromium 不同。 Atlas 浏览器的核心创新在于其独特的 OWL 架构,该架构通过将 Chromium 引擎作为一个独立的服务层运行,从而与主应用程序进程分离。这种解耦设计不仅解决了传统浏览器架构在性能和用户体验上的瓶颈,还为实现复杂的 Agent (智能体) 功能和快速的产品迭代奠定了坚实的基础。它使得 Atlas 能够同时利用 Chromium 强大的网络兼容性与现代原生框架 (SwiftUI, AppKit) 带来的流畅体验。 关键细节 背景与挑战 产品目标: 团队希望创造一款能将 ChatGPT 作为网络“副驾驶”的浏览器,拥有即时启动、支持数百个标签页而不影响性能,以及丰富的动画和视觉效果。 技术选型: Chromium 因其先进的引擎、强大的安全模型和无与伦比的网络兼容性,成为自然的选择。 架构难题: 直接使用或修改 Chromium 的标准架构难以实现上述产品目标,特别是快速启动和高性能。同时,深度修改 Chromium 会导致后续版本更新和维护变得极其困难和耗时。 解决方案:OWL 架构 核心思想: OWL (OpenAI’s Web Layer) 是 OpenAI 的解决方案。它将 Chromium 的浏览器进程从 Atlas 主应用进程中剥离出来,使其成为一个独立的后台服务。 工作模式: Atlas 应用作为 OWL Client (客户端),而 Chromium 进程作为 OWL Host (主机)。两者通过 Chromium 自家的消息传递系统 Mojo 进行通信 (IPC)。 OWL 带来的优势 应用更简洁: Atlas 的用户界面几乎完全由 SwiftUI 和 AppKit 构建,代码库更清晰、技术栈更统一。 启动更快速: Chromium 在后台异步启动,用户界面几乎可以瞬间加载。 隔离性更强: Chromium 引擎的卡顿或崩溃不会影响 Atlas 主应用的稳定性。 维护更容易: 由于 Atlas 没有构建在 Chromium 的开源 UI 之上,与上游 Chromium 的代码差异更小,便于维护和升级。 迭代更迅速: 大多数工程师无需在本地编译 Chromium (耗时数小时),而是使用预编译的 OWL 二进制文件,使 Atlas 的构建时间从数小时缩短到几分钟。 针对 Agent 功能的特殊设计 渲染: 为了让 AI 模型能看到完整的页面上下文,Atlas 会将下拉菜单等在主窗口外渲染的 UI 元素重新组合到主页面图像中。 输入: Agent 生成的输入事件会直接发送到渲染器,而不是通过拥有更高权限的浏览器层,以保证沙箱安全边界。 数据隔离: Agent 浏览可以在临时的“登出”环境中运行。它使用 Chromium 的 StoragePartition 基础架构创建隔离的内存存储,确保每个 Agent 会话都是全新的,会话结束后所有数据都会被丢弃。 原文:我们如何构建OWL:我们基于ChatGPT的浏览器Atlas背后的新架构 作者:Ken Rockot,技术团队成员;Ben Goodger,ChatGPT Atlas工程主管...

October 31, 2025 · 2 min · fisherdaddy

OpenAI 的未来蓝图:从超级智能到万亿投资,Sam Altman 的透明宣言

本文是 OpenAI 完成重组后, Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki、OpenAI 联合创始人 Wojciech Zaremba 谈论 OpenAI 的未来的直播,以下是 Sam Altman 对本次直播核心内容的总结: 我们设立了内部目标,即到2026年9月拥有一个在数十万个GPU上运行的自动化AI研究实习生,到2028年3月拥有一个真正的自动化AI研究员。我们可能完全无法实现这个目标,但鉴于其非凡的潜在影响,我们认为对此保持透明符合公众利益。 我们的安全策略依赖于5个层面:价值对齐、目标对齐、可靠性、对抗性鲁棒性和系统安全。思维链的忠实性是我们特别兴奋的一个工具,但它有些脆弱,需要划定一个边界和清晰的抽象。 在产品方面,我们正努力转向一个真正的平台,让基于我们产品构建的个人和公司将捕获大部分价值。今天,人们可以在ChatGPT中使用我们的API和应用程序进行构建;最终,我们希望提供一个能够赋能大型企业的人工智能云。 我们目前已承诺投入约30吉瓦的算力,多年来的总拥有成本约为1.4万亿美元。鉴于我们所看到的模型能力增长和收入增长的前景,我们对此感到坦然。我们希望做得更多——我们希望建立一个AI工厂,能以远低于今天的成本每周制造1吉瓦的新容量——但这将需要对未来的模型、收入以及技术/金融创新有更多信心。 我们的新结构比旧结构简单得多。我们有一个名为OpenAI基金会的非营利组织,它管理着一个名为OpenAI集团的公益公司(PBC)。该基金会最初拥有PBC 26%的股份,但如果PBC表现超级出色,它可以通过认股权证随时间增加持股。PBC可以吸引实现使命所需的资源。 我们的非营利组织和PBC的使命保持不变:确保通用人工智能造福全人类。 该非营利组织最初承诺投入250亿美元用于健康和治愈疾病,以及AI韧性(所有能帮助社会成功过渡到后AGI世界的事物,包括技术安全,也包括经济影响、网络安全等等)。与以前不同,该非营利组织现在有能力相对迅速地实际部署资本。 我们预计到2026年,我们的AI系统或许能够做出一些小型的新发现;到2028年,我们可能看到重大的发现。这是一件非常重要的事情;我们认为科学,以及那些让我们能广泛分享科学成果的机构,是生活质量随时间推移而改善的最重要途径。 原文: “Hello,我是Sam。” 伴随着这句简单的开场白,OpenAI的CEO Sam Altman和他的首席科学家Jakub Pachocki,以前所未有的透明度,向世界揭示了他们关于人工智能未来的宏伟蓝图。这不仅仅是一次常规的更新,更像是一场关于技术、社会和人类未来的坦诚对话。他们分享了内部的研究目标、庞大的基础设施计划,以及一个旨在“确保通用人工智能(AGI)惠及全人类”的全新公司架构。 让我们一起深入这场信息量爆炸的分享会,看看OpenAI到底在谋划些什么。 重新定义AGI:从“神谕”到赋能人类的“工具” 在OpenAI的早期,团队曾想象AGI会像一个高悬于天空的“神谕”,自动为人类创造各种奇迹。但随着研究的深入,他们的看法变得更加清晰和务实。 “我们想创造工具,然后让人们用这些工具去创造未来。” Sam Altman解释道。 这个观点的转变至关重要。未来的AGI不再是一个包办一切的“神”,而是一个强大的赋能者。OpenAI的愿景是为每个人打造一个“个人AGI”(Personal AGI),这个智能体可以随时随地调用各种工具和服务,帮助人们处理工作与个人生活中的大小事务。 想象一下,当AI甚至能够帮助我们发现新的科学知识时,普通人能用它创造出什么?这正是OpenAI所期待的,一个由无数个体用AI工具共同构建的、更加美好的未来。 直面超级智能:一个大胆到令人咋舌的时间表 接下来,首席科学家Jakub Pachocki接过了话筒,分享了更令人震撼的研究进展。他坦言,AGI这个词甚至可能低估了深度学习所带来的变革。 “我们相信,深度学习系统离**超级智能(Superintelligence)**可能不到十年。” 超级智能,即在许多关键领域都比全人类更聪明的系统。这是一个严肃的命题,而OpenAI的整个研究计划,正是围绕着利用这种力量来加速科学发现和技术发展而展开的。 Jakub用一个非常直观的指标来衡量模型的进步:人类完成同样任务所需的时间。 当前模型(如GPT-5):已经能处理需要人类顶尖专家花费约5个小时才能完成的任务,比如在国际信息学奥林匹克竞赛中取得优异成绩。 未来的可能性:模型的“思考时间”(即测试时计算量,Test-Time Compute)还有巨大的提升空间。如果为了攻克科学难题,我们可以让模型动用整个数据中心的算力去“思考”,那会发生什么? 基于这种预期,Open-AI罕见地公开了他们的内部研究时间表(并强调这只是目标,可能会有偏差): 到2026年9月:开发出“AI研究实习生”(AI Research Interns),能够通过大量计算,显著加速研究人员的工作。 到2028年3月:实现一个“全自动AI研究员”(Fully Automated AI Researcher),能够独立完成大型研究项目。 这听起来像是科幻电影,但它正是OpenAI正在全力冲刺的方向。 安全的基石:五层防御与“思想链忠诚度” 拥有如此强大的力量,安全自然是重中之重。Jakub详细介绍了OpenAI的五层安全框架,从模型内部到外部系统,层层递进: 价值对齐 (Value Alignment):最核心也最困难的一环。它要确保AI从根本上“关心”人类的福祉,当面对模糊或冲突的指令时,能遵循高层原则。简单说,就是“AI爱人类吗?” 目标对齐 (Goal Alignment):确保AI能正确理解并遵循人类的指令。 可靠性 (Reliability):AI能正确评估自己的能力,在简单任务上保持可靠,在困难任务上表达不确定性。 对抗性鲁棒性 (Adversarial Robustness):系统能抵御来自人类或AI的恶意攻击。 系统性安全 (Systemic Safety):不依赖于AI自身智能或对齐性的外部保障,例如数据访问权限、物理设备控制等。 在这些层面中,Jakub特别深入地讲解了一个前沿且充满希望的技术方向:思想链忠诚度 (Chain-of-Thought Faithfulness)。...

October 30, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的浏览器 Atlas

OpenAI 于 2025 年 10 月 21 日推出了一款以 ChatGPT 为核心的全新网络浏览器——ChatGPT Atlas。这款浏览器旨在通过深度集成 AI,重塑用户的网页浏览体验,使其成为一个能够理解用户意图并主动完成任务的“超级助理”。 ChatGPT Atlas 的核心思想是将 ChatGPT 的强大功能与浏览器深度融合,让 AI 能够理解用户正在浏览的内容和上下文,从而在不离开当前页面的情况下,提供即时帮助、自动化执行任务。这标志着网页浏览从被动获取信息,向与 AI 协同完成工作的主动模式转变。其最终目标是让用户能够将繁琐的日常任务委托给 AI,从而专注于更重要的事情。 关键细节 核心功能与特性 深度集成: ChatGPT 内置于浏览器中,可随时调用,理解当前页面内容,无需复制粘贴。 浏览器记忆 (Browser memories): Atlas 可以选择性地记住用户浏览过网站的上下文信息,并在后续的对话和任务中利用这些信息,例如,可以要求它“总结我上周看过的所有招聘信息,并分析行业趋势”。 代理模式 (Agent mode): 在此模式下,ChatGPT 可以在浏览器中为用户执行具体操作。例如,根据一个在线食谱,自动寻找商店、将所有配料加入购物车并下单。该功能目前为 Plus、Pro 和 Business 用户提供预览。 用户控制与隐私安全 用户自主控制: “浏览器记忆”功能完全可选,用户可以随时在设置中查看、归档或删除这些记忆。用户也可以随时控制 ChatGPT 对特定网站的访问权限。 数据训练: 默认情况下,用户的浏览内容不会被用于训练 OpenAI 的模型。用户可以选择在数据控制设置中开启“包括网页浏览”来授权训练。 代理模式安全措施: 代理无法在浏览器中运行代码、下载文件或安装扩展程序。 在访问金融机构等敏感网站时,代理会暂停以确保用户知情。 尽管有安全措施,官方仍提示代理模式存在被恶意指令利用的风险,并建议用户保持警惕。 发布与平台支持 首发平台: ChatGPT Atlas 今日起在全球范围内向 macOS 用户推出,覆盖 Free、Plus、Pro 和 Go 等多个版本。 后续支持: Windows、iOS 和 Android 平台的版本也即将推出。 企业版本: Business、Enterprise 和 Edu 用户可在管理员授权后使用 Beta 版本。 原文:介绍 ChatGPT Atlas 今天我们推出 ChatGPT Atlas,一款以 ChatGPT 为核心构建的新型网页浏览器。...

October 27, 2025 · 2 min · fisherdaddy

Sora:生成式视频的“ChatGPT时刻”

本文是 OpenAI 前技术员工,OpenAI 播客主持人 Andrew Mayne 对 Sora 2 的观点。这个观点我比较认同,我认为 Sora 2 是视频领域的 ChatGPT 3.5 时刻,它不是 TikTok 的替代品,更不会是昙花一现的产品。 另外,我猜字节不出 3 个月在国内推出一个类似的产品,又要开始抄起来了。有人说可能字节有即梦,但 Sora 和即梦完全是两类不同定位的产品,前者偏娱乐社交,后者偏专业工具。再多说一句字节这家公司,如果你仔细看doubao 的模型能力和产品功能就会发现一些端倪,他们模型路线对标 Gemini,产品路线对标 OpenAI。 以下是Andrew Mayne 文章的原文翻译,建议读一读,算是比较中立和客观的观点: Sora 2 的 ChatGPT 时刻 72 小时前,OpenAI发布了Sora,这是一款仅限受邀用户使用的应用程序,但它已经登上了苹果应用商店的榜首。仅仅三天,它就改变了我以及许多其他人——在网上消磨时间的方式。就我个人而言,这周我在Sora上花的时间比我这辈子花在TikTok上的总时间还多。也超过了过去一年里花在Instagram上的时间。 这种时间上的转变很能说明问题。这不仅仅是新奇感;它感觉像是人们创作和消费视频方式的一个新重心。 Sora为何与众不同 将Sora的发布与ChatGPT相提并论的说法随处可见,而且很中肯。回想当初——即使在OpenAI内部——我们也不知道ChatGPT会变成什么样。两年半后,Sora正散发出同样的气息。 有几点让它脱颖而出: 质量与速度。 生成视频需要几分钟时间,但保真度惊人。在等待时,你可以浏览其他同样出色的视频片段。这段等待时间也成为了体验的一部分。 客串模式(Cameo mode)。 你可以生成一个与自己或朋友惊人相似的形象,并直接将其放入场景中。这让“应用”和“平台”之间的界限变得模糊。它不仅仅是视频生成,更是协作式的个人化叙事。 真实感的飞跃。 一年前,我们还在嘲笑六指手和呆滞的眼神。那些都已成为过去。现在,我用朋友的形象制作的视频中,唯一能看出是AI生成的痕迹,就是我把他们放进的荒诞情境里。 它让人上瘾,但不同于TikTok或Instagram那种令人陷入无限刷屏的负循环。它很有趣,富有实验性,并且在最纯粹的意义上充满了“生成感”。 早期的文化涟漪 我每天花在Sora上的两个小时,通常是用来刷X或YouTube的时间。并非只有我如此。如果这种模式规模化,对注意力经济的影响可能是颠覆性的。 还有其他值得注意的文化信号: 版权灰色地带。 OpenAI对用户使用可识别的知识产权(IP)持宽松态度。其中大部分是戏仿,这在法律上或许站得住脚——但我们最终将面临法庭诉讼。就目前而言,这种自由正在激发创造力和病毒式传播。 领导者的表率。 Sam Altman公开允许任何人使用他的肖像。发布两天后,信息流中充斥着关于Sam的笑话——有些是善意的,有些则很尖刻。现在,随着人们探索更广泛的创意,这种比例正在趋于平衡。这要归功于他的积极参与。这传递出一个明确的信息:在这个新世界里,抗拒是徒劳的。不如拥抱它。 前路展望 目前,Sora的视频片段上限为10秒。更长的故事板,就像网页版上已有的功能一样,即将推出。即使只是延长到60秒,也将解锁一个全新的叙事层面——并让这款应用更具粘性。 经济因素同样重要。创作比消费的成本更高。大多数人会成为创作者,还是会浏览少数创意人士产出的无尽信息流?这个比例将决定Sora给人的感觉是像TikTok、YouTube,还是某种全新的事物。 一个颠覆性的时刻 有人认为Sora的新鲜感会很快消失。我不同意。我已经不止一次被那些短剧和巧妙的场景逗笑了,这些场景本可以很容易地用真人实景拍摄,但现在用AI在几分钟内就生成了。 这感觉不像一个玩具,更像是YouTube的早期——那时,版权纠纷、怪异的实验和新的声音相互碰撞,形成了一种文化无法忽视的力量。 Sora就是这样一个时刻。它是媒体制作、分享和消费方式的一个转折点。我们回顾这次发布时,或许会像回顾ChatGPT一样:认为它就是未来悄然成为现实的那个时间点。 超越应用本身:视频生态系统的震荡 这里的故事不仅仅是Sora是一款令人上瘾的新应用,更是它重塑了整个视频生态系统的竞争格局。 在过去两年里,投资者向那些承诺提供AI驱动的虚拟形象、合成主持人以及可定制视频内容的初创公司投入了大量资金。这些公司中,许多都建立在一个假设之上:它们拥有OpenAI尚未跨越的技术护城河。 那条护城河已经消失了。 Sora的发布已经超越了数十家初创公司一直宣传的核心优势。整个商业模式——有些是围绕定制虚拟形象,有些是围绕缓慢昂贵的渲染流程——现在都岌岌可危。上个月看起来还是一个可防御的利基市场,如今突然变成了一款免费移动应用中的一个商品化功能。 对于任何密切关注OpenAI的人来说,这个结果并不令人震惊。时间点可能比预期的要早,但发展方向是明确的。生成式视频绝不会长期掌握在少数精品工作室手中。现在它已成为主流,对生态系统中其他参与者的冲击将是残酷的。

October 5, 2025 · 1 min · fisherdaddy

OpenAI CEO Sam Altman 深夜发文,启动史上最酷基建项目,目标“充裕智能”

OpenAI CEO 奥特曼在其个人博客发布最新文章《充裕智能》,算是对今早OpenAI 官宣与英伟达战略合作共同部署至少 10 吉瓦的 NVIDIA 系统(数百万个 GPU)的回应,也是为了进一步融资做好铺垫,当然 10月的 OpenAI 开发者大会发布的产品大概率也有一部分原因是为融资做准备。现在硅谷有一个共识:算力=智力,所以 OpenAI以及马斯克的 xAI 都在疯狂的融资建大型 GPU 集群。 奥特曼的这篇文章有一些核心的信息值得关注: OpenAI 希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。要达到每周能生产一吉瓦这个里程碑,需要从芯片到电力,再到建筑和机器人技术的每一层技术栈的创新。 未来几个月,OpenAI 将会公布一些具体实现计划以及新的合作的伙伴。现在已经有微软、软银、ORACLE 和英伟达了,还得继续引入更多伙伴,继续要钱。 奥特曼认为增加算力是增加收入的直接关键。这句话额意思是 OpenAI 因为算力限制了发布新的产品或模型,进而限制了收入的增加,所以他们计划发布一些计算密集型的新东西。这里说的应该就是 Sora2 和获得IMO、IOI 和 ICPC 金牌的新版推理模型,也可能有类似于谷歌 Genie 3 一样的世界模型的发布。 原文:充裕智能 人工智能服务的使用增长一直令人惊叹;我们预计未来的增长将更加惊人。 随着人工智能变得越来越智能,获取人工智能将成为经济的根本驱动力,并最终可能被我们视为一项基本人权。几乎每个人都希望有更多的人工智能为他们服务。 为了能够提供世界所需——用于运行这些模型的推理算力,以及用于不断改进模型的训练算力——我们正在奠定基础,以便能够大幅扩展我们建设人工智能基础设施的雄心。 如果人工智能继续沿着我们认为的轨迹发展,那么惊人的事情将成为可能。也许用 10 吉瓦的算力,人工智能可以找到治愈癌症的方法。或者用 10 吉瓦的算力,人工智能可以为地球上的每个学生提供定制化的辅导。如果我们的算力有限,我们将不得不选择优先发展哪一个;没有人想做出这种选择,所以让我们开始建设吧。 我们的愿景很简单:我们希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。实现这一目标将极其困难;我们需要数年时间才能达到这个里程碑,并且需要在技术栈的每一层进行创新,从芯片到电力,再到建筑和机器人技术。但我们一直在为此努力,并相信这是可能实现的。在我们看来,这将是有史以来最酷、最重要的基础设施项目。我们特别高兴能将其中大部分建在美国;目前,其他国家在芯片工厂和新能源生产等方面的建设速度比我们快得多,我们希望帮助扭转这一趋势。 在接下来的几个月里,我们将讨论我们的一些计划以及为实现这一目标而合作的伙伴。今年晚些时候,我们将讨论如何为其融资;鉴于增加算力是增加收入的直接关键,我们有一些有趣的新想法。

September 24, 2025 · 1 min · fisherdaddy

OpenAI Codex 迎来重大升级

OpenAI Codex 团队像打了鸡血一样,Codex CLI 代码更新非常频繁,两天一大版本,一天多小版本。Codex 最近增长态势非常不错,过去两周的使用量增长了约 10 倍!注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前,我之前(9 月 8 号)在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议,当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型,大家可以切到这个最新的编码模型上了。这个模型一经发布,火爆整个 AI 圈,Claude Code 瞬间不香了,大家全都去用 Codex CLI 了,用 OpenAI CEO 的原话说是:Codex 的氛围,感觉像是 ChatGPT 刚出来的那几个月。 快速了解一下本次 Codex 升级内容 新模型 GPT-5-Codex 训练重点:模型专注于真实世界的复杂工程任务,如从零开始构建项目、添加功能、大规模重构和代码审查。 动态资源分配:模型能根据任务复杂性动态调整其“思考”时间。对于简单请求,响应更迅速(在某些场景下使用的 tokens 减少 93.7%);对于复杂任务,则会投入更多时间进行推理和迭代(推理时间增加一倍)。 持久的自主工作能力:在测试中,GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时,不断迭代和修复测试失败,直至成功交付。 增强的前端能力:该模型不仅能创建美观的桌面应用,还能处理前端任务,并可以在云端环境中查看图像输入、检查其视觉进度,并向用户展示工作截图。 Codex 产品与工具更新 Codex CLI:围绕代理式工作流进行了重建,支持附加图像(如截图、线框图)作为上下文,并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。 IDE 扩展:将 Codex 代理直接集成到 VS Code、Cursor 等编辑器中。它能利用编辑器中的上下文(如打开的文件)来提供更快速、更精准的响应,并支持在本地与云端任务间无缝切换。 云与 GitHub 集成:通过容器缓存,新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖,并在 GitHub 中直接执行任务和审查 PR。 核心功能:代码审查 (Code Review) 工作方式:与静态分析工具不同,Codex 能够理解 PR 的意图,并结合整个代码库进行推理,甚至执行代码和测试来验证其行为。 使用方法:在 GitHub 仓库中启用后,Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查,并可添加特定指令,如审查安全漏洞。 内部应用:在 OpenAI 内部,Codex 已经审查了绝大多数的 PR,每天发现数百个问题,显著提升了开发速度和信心。 安全性与使用建议 沙盒环境:默认情况下,Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中,以降低风险。 权限控制:开发者可以根据风险承受能力自定义安全设置,例如批准特定命令的运行或限制网络访问的域名。 人类监督:OpenAI 强调,Codex 应作为人类审查员的补充,而不是替代品,并鼓励开发者在使用前审查其工作成果。 定价与可用性 订阅计划:Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中,使用额度随计划等级提升。 API 访问:GPT-5-Codex 模型计划很快通过 API 提供给开发者。 在 Reddit 上的 AMA(问我任何事)活动 Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA(问我任何事)活动,有几个需要关注的信息:...

September 15, 2025 · 4 min · fisherdaddy

GPT-5 最佳编码实践

GPT-5 在编码方面能力很强,但对 Prompt的编写有一定的要求,以下是 OpenAI 总裁 Greg Brockman 也认可的最佳编码实践。 虽然强大的 GPT-5 可以应对不同的编程模式,但也有一些技巧能帮助你从 API 或编程工具中获得最大收益。 1. 避免冲突信息 新版 GPT-5 模型在遵循指令方面有显著提升,但如果指令模糊或包含冲突信息,仍可能导致副作用。例如,避免在 .cursor/rules 或 AGENTS.md 文件中出现冲突指令。 2. 运用正确的推理力 GPT-5 总是会进行某种程度的推理来解决问题。为了获得最佳结果,请对最复杂的任务使用高推理力。如果你发现模型过度思考简单问题,请调低推理力,选择中等或低等级别。 3. 使用 XML 语法来组织指令 结合 Cursor,我们发现 GPT-5 在使用类似 XML 的语法来提供更多上下文时效果更好。例如,你可以遵循以下模型编程指南: <code_editing_rules> <guiding_principles> - 每个组件都应该是模块化和可重用 - ... </guiding_principles> <frontend_stack_defaults> - Styling:TailwindCSS </frontend_stack_defaults> </code_editing_rules> 4. 避免过度使用硬性语言 与其他模型一样,你可能习惯使用硬性语言,例如: 在收集信息时彻底。 确保你在回复前已掌握全貌。 对于 GPT-5,这些指令可能会适得其反,因为模型可能会过度遵循,导致不自然。例如,它可能会过度使用工具调用来获取上下文。 5. 为规划和自我反思留出空间 如果你正在创建从零到一的应用,给模型指令以进行自我反思可以提供帮助。 <self_reflection> - 首先,花点时间思考一下要使用的评估标准。 - 然后,清晰地思考关于一键式 Web 应用程序的每个方面,你需要创建一个评估标准,其中有 5-7 个类别。这个标准很难做到完全正确,但不要直接展示给用户。这是为了你自己的目的。 - 最后,使用这个评估标准,以最好的方式思考并迭代,来响应所提供的提示。如果你对自己的回应没有达到评估标准中的最高分,你需要再次开始。 </self_reflection> 6....

September 2, 2025 · 1 min · fisherdaddy

GPT-5 提示指南

本文来自于 OpenAI 官方文档:GPT-5 prompting guide。 GPT-5 是我们最新的旗舰模型,在代理任务性能、编码、原始智能和可控性方面实现了重大飞跃。 虽然我们相信它在各种领域都能“开箱即用”地表现出色,但在本指南中,我们将介绍一些提示技巧,以最大化模型输出的质量。这些技巧源于我们训练模型并将其应用于真实世界任务的经验。我们将讨论诸如提升代理任务性能、确保指令遵循、利用新的 API 功能,以及为前端和软件工程任务优化编码等概念——并深入探讨 AI 代码编辑器 Cursor 在 GPT-5 提示调优方面的关键见解。 我们已经看到,通过应用这些最佳实践并尽可能采用我们的标准工具,可以获得显著的收益。我们希望本指南以及我们构建的提示优化器工具能成为你使用 GPT-5 的起点。但一如既往,请记住,提示并非一刀切的练习——我们鼓励你在本文提供的基础上进行实验和迭代,以找到适合你问题的最佳解决方案。 代理工作流的可预测性 我们为开发者量身打造了 GPT-5:我们专注于改进工具调用、指令遵循和长上下文理解,使其成为代理应用的基础模型。如果将 GPT-5 用于代理和工具调用流程,我们建议升级到 Responses API,在该 API 中,推理过程会在工具调用之间保持持久化,从而带来更高效、更智能的输出。 控制代理的“积极性” 代理框架的控制范围可以很广——有些系统将绝大部分决策权委托给底层模型,而另一些系统则通过大量的程序化逻辑分支对模型进行严格控制。GPT-5 被训练来适应这个范围内的任何一点,从在模糊情况下做出高层决策到处理专注、明确定义的任务。在本节中,我们将介绍如何地校准 GPT-5 的代理积极性:换言之,即它在主动性和等待明确指导之间的平衡。 降低积极性的提示 默认情况下,GPT-5 在代理环境中会详尽、全面地收集上下文,以确保产生正确的答案。要缩小 GPT-5 代理行为的范围——包括限制离题的工具调用行为和最小化达成最终答案的延迟——请尝试以下方法: 切换到较低的 reasoning_effort。这会降低探索深度,但能提高效率和降低延迟。许多工作流可以在中等甚至低的 reasoning_effort 下以一致的结果完成。 在你的提示中定义明确的标准,说明你希望模型如何探索问题空间。这减少了模型探索和思考过多想法的需要: <context_gathering> 目标:快速获取足够的上下文。并行化发现过程,并在可以行动时立即停止。 方法: - 从宽泛开始,然后展开到集中的子查询。 - 并行发起各种查询;读取每个查询的匹配结果。对路径进行去重和缓存;不要重复查询。 - 避免过度搜索上下文。如果需要,在一个并行批次中运行有针对性的搜索。 提前停止标准: - 你可以指明需要更改的确切内容。 - 匹配结果(约70%)收敛于一个领域/路径。 升级一次: - 如果信号冲突或范围模糊,运行一个精炼的并行批次,然后继续。 深度: - 只追踪你将要修改的符号或你依赖其契约的符号;除非必要,否则避免传递性扩展。 循环: - 批量搜索 → 最小化计划 → 完成任务。 - 仅在验证失败或出现新的未知情况时再次搜索。倾向于行动而非更多搜索。 <context_gathering> 如果你愿意接受最大程度的规定,你甚至可以设置固定的工具调用预算,如下所示。该预算可以根据你期望的搜索深度自然地变化。...

August 20, 2025 · 6 min · fisherdaddy