2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。
关键细节
核心功能与工作方式
- 任务执行能力: 用户可以要求
ChatGPT agent
执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 - 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和
API
访问权限,使其能够智能地选择最高效的方式来完成任务。 - 协同工作流程:
ChatGPT agent
支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。
性能与基准测试
- 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,
ChatGPT agent
的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 - 具体数据:
- 在
Humanity’s Last Exam
(专家级问题测试)中,得分达到41.6%
。 - 在
DSBench
(数据科学任务)上,准确率达到89.9%
,显著超越人类表现。 - 在
BrowseComp
(网络浏览信息定位)中,准确率达到68.9%
,比deep research
高出17.4
个百分点。
- 在
风险与安全措施
- 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(
prompt injection
)攻击。 - 多层安全防护:
- 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。
- 主动监督: 发送邮件等关键任务需要用户在“观察模式”(
Watch Mode
)下进行监督。 - 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。
- 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。
可用性与当前限制
- 推出范围: 该功能已开始向
Pro
、Plus
和Team
用户推出,Pro
用户每月有400
条消息的使用额度。其他付费用户每月有40
条消息,额外用量可通过灵活的基于积分的选项获得。 - 功能局限:
ChatGPT agent
仍处于早期阶段,有时可能会出错。- 幻灯片生成功能尚处于
beta
测试阶段,生成的内容在格式和美观度上可能较为基础。
原文:推出 ChatGPT 智能体:连接研究与行动
ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。
现在,ChatGPT 可以使用其自己的计算机为您工作,从头到尾处理复杂任务。
您现在可以要求 ChatGPT 处理诸如“查看我的日历,并根据最新新闻向我简要介绍即将到来的客户会议”、“为四人份的日式早餐规划并购买食材”以及“分析三个竞争对手并制作一个幻灯片”等请求。ChatGPT 将智能地浏览网站、筛选结果、在需要时提示您安全登录、运行代码、进行分析,甚至提供可编辑的幻灯片和电子表格来总结其发现。
这项新能力的核心是一个统一的智能体系统。它汇集了早期三大突破的优势:Operator 与网站交互的能力、deep research 综合信息的技能,以及 ChatGPT 的智能和对话流畅性。
ChatGPT 使用其自己的虚拟计算机来执行这些任务,在推理和行动之间流畅切换,根据您的指令从头到尾处理复杂的工作流。
最重要的是,您始终拥有控制权。在采取有重要影响的行动前,ChatGPT 会请求您的许可。您可以随时轻松地中断、接管浏览器或停止任务。
从今天开始,Pro、Plus 和 Team 用户可以在任何对话中,通过输入框的工具下拉菜单选择“智能体模式”,直接激活 ChatGPT 的新智能体功能。
虽然 ChatGPT 智能体已是处理复杂任务的强大工具,但今天的发布仅仅是个开始。我们将继续定期迭代,进行重大改进,使其功能更强大,对更多人更有用。
Operator 和 deep research 的自然演进
过去,Operator 和 deep research 各有其独特优势:Operator 可以在网页上滚动、点击和输入,而 deep research 则擅长分析和总结信息。但它们在不同情况下表现最佳:Operator 无法进行深度分析或撰写详细报告,而 deep research 无法与网站互动以优化结果或访问需要用户验证的内容。事实上,我们发现用户尝试用 Operator 处理的许多查询,其实更适合用 deep research,因此我们将两者的优点结合在了一起。
通过将这些互补的优势整合到 ChatGPT 中并引入额外工具,我们在一个模型内解锁了全新的能力。它现在可以主动与网站互动——点击、筛选并收集更精确、更高效的结果。您还可以在同一次聊天中,从简单的对话自然地过渡到直接请求执行操作。
一个为您服务、与您协作的智能体
我们为 ChatGPT 智能体配备了一套工具:一个通过图形用户界面与网页互动的可视化浏览器,一个用于较简单的基于推理的网页查询的文本浏览器,一个终端,以及直接的 API 访问。该智能体还可以利用 ChatGPT 连接器(在新窗口中打开),让您可以连接 Gmail 和 Github 等应用,以便 ChatGPT 查找与您的提示相关的信息并在其回应中使用。您还可以通过接管浏览器登录任何网站,使其在研究和任务执行方面都能走得更深、更广。为 ChatGPT 提供这些不同的访问和互动网页信息的途径,意味着它可以选择最佳路径来最高效地执行任务。例如,它可以通过 API 收集您的日历信息,使用文本浏览器高效地对大量文本进行推理,同时也能与主要为人类设计的网站进行可视化互动。
所有这些都是通过其自己的虚拟计算机完成的,即使在使用多个工具时,也能保留任务所需的上下文——模型可以选择使用文本浏览器或可视化浏览器打开页面,从网上下载文件,通过在终端中运行命令来操作文件,然后再在可视化浏览器中查看输出。模型会调整其方法,以快速、准确和高效地执行任务。
ChatGPT 智能体专为迭代、协作的工作流程设计,比以往的模型更具互动性和灵活性。在 ChatGPT 工作时,您可以随时中断以澄清您的指令、引导其达到期望的结果,或完全改变任务。它会从中断处继续,结合新的信息,但不会丢失之前的进度。同样,ChatGPT 本身也可能在需要时主动向您寻求更多细节,以确保任务与您的目标保持一致。如果任务耗时超出预期或感觉卡住了,您可以暂停它,向它索要进度摘要,或完全停止并接收部分结果。如果您手机上装有 ChatGPT 应用,当任务完成时,它会向您发送通知。
拓宽现实世界中的实用性
这些统一的智能体能力显著增强了 ChatGPT 在日常和专业场景中的实用性。在工作中,您可以自动化重复性任务,如将屏幕截图或仪表板转换为由可编辑矢量元素组成的演示文稿、重新安排会议、规划和预订团队外出活动,以及在保留相同格式的情况下用新的财务数据更新电子表格。在个人生活中,您可以用它来轻松规划和预订旅行行程、设计和预订整个晚宴,或寻找专家并安排预约。
该模型提升的能力体现在其在衡量网页浏览和现实世界任务完成能力的评估中达到了最先进的(SOTA)水平。
在 Humanity’s Last Exam(在新窗口中打开)* 这项评估中,衡量人工智能在广泛学科领域专家级问题上的表现,驱动 ChatGPT 智能体的模型取得了 41.6 的 pass@1 新 SOTA 分数。由于该智能体能动态规划并选择自己的工具,它可以在不同运行中以不同方式处理同一任务。当我们采用简单的并行展开策略进行扩展——一次最多运行八次尝试并选择自我报告置信度最高的一次——该智能体的 HLE 分数增加到 44.4。
FrontierMath** 是已知最难的数学基准测试,包含新颖、未发表的问题,通常需要数学专家花费数小时甚至数天才能解决。通过使用工具,如访问终端执行代码,ChatGPT 智能体达到了 27.4% 的准确率,大幅超越了之前的两个模型。
我们还使用模拟复杂现实世界任务的基准对模型进行了评估。在一个旨在评估模型在复杂、具有经济价值的知识工作任务上表现的内部基准测试中,在不同任务完成时间范围内,ChatGPT 智能体的输出在大约一半的情况下与人类相当或更优,同时显著优于 o3 和 o4-mini。模型输出由专家对照各领域顶尖表现者创建的高质量人类基线进行评判。这些任务来源于不同职业和行业的专家,反映了真实的专业工作——例如,为按需紧急护理服务提供商准备竞争分析、建立详细的摊销表,以及为新的绿色氢能设施确定可行的水井。
在旨在评估智能体在涵盖数据分析和建模的现实数据科学任务上表现的 DSBench(在新窗口中打开) , ChatGPT 智能体显著超越了人类的表现。
在评估模型编辑源自真实世界场景的电子表格能力的 SpreadsheetBench 中,ChatGPT 智能体显著优于现有模型。当被赋予直接编辑电子表格的能力时,ChatGPT 智能体的得分更高,达到 45.5%,而 Excel 中的 Copilot 为 20.0%。
方法论:SpreadsheetBench 的作者使用 Windows 环境下的 Microsoft Excel 来评估电子表格。我们使用了 OSX 环境和 LibreOffice,这可能导致微小的评分差异。例如,作者发现 GPT-4o 的 Overall Hard 限制为 15.02%,而我们得到的是 13.38%。我们使用了完整的 912 个问题的基准测试。
在一个衡量模型承担一至三年级投资银行分析师建模任务能力的内部基准测试中——例如为一家财富 500 强公司制作带有正确格式和引用的三表财务模型,或为私有化交易建立杠杆收购模型——驱动 ChatGPT 智能体的模型显著优于 deep research 和 o3。每项任务都根据数百个与正确性和公式使用相关的标准进行评分。
我们还在 BrowseComp 上评估了 ChatGPT 智能体,这是我们今年早些时候发布的一个基准,用于衡量浏览智能体在网上定位难以查找信息的能力。该模型创下了 68.9% 的新 SOTA,比 deep research 高出 17.4 个百分点。
最后,在 WebArena(在新窗口中打开) 这个旨在评估网页浏览智能体完成真实世界网络任务表现的基准上,该模型比由 o3 驱动的 CUA(驱动 Operator 的模型)有所改进。
如何使用
您可以在任何对话中,通过输入框的工具下拉菜单选择“智能体模式”,直接激活 ChatGPT 的新智能体功能。只需描述您期望的任务——无论是进行深度研究、创建幻灯片还是提交开支。在它执行任务时,屏幕上的叙述会让您清楚地看到 ChatGPT 正在做什么。您可以在需要时中断并接管浏览器,确保任务与您的目标保持一致。
ChatGPT 智能体可以访问您的连接器,从而与您的工作流程集成,并访问相关的、可操作的信息。一旦验证通过,这些连接器允许 ChatGPT 查看信息并执行诸如总结您当天的收件箱或查找您有空开会的时间段等操作——然而,要在这些网站上采取行动,您仍需要通过接管浏览器来登录。
此外,您还可以安排已完成的任务自动重复执行,例如在每周一早上生成一份周度指标报告。
新能力,新风险
本次发布标志着用户首次可以要求 ChatGPT 在网上采取行动。这带来了新的风险,特别是因为 ChatGPT 智能体可以直接处理您的数据,无论是通过连接器访问的信息,还是您通过接管模式登录的网站。我们加强了 Operator 研究预览版中的稳健控制措施,并为处理实时网络上的敏感信息、更广泛的用户覆盖范围以及(有限的)终端网络访问等挑战增加了保障措施。虽然这些缓解措施显著降低了风险,但 ChatGPT 智能体扩展的工具和更广泛的用户覆盖范围意味着其整体风险状况更高。
我们特别强调保护 ChatGPT 智能体免受通过提示注入进行的对抗性操纵,这是智能体系统普遍面临的风险,并为此准备了更广泛的缓解措施。提示注入是第三方试图通过恶意指令来操纵其行为,这些指令是 ChatGPT 智能体在完成任务时可能在网上遇到的。例如,隐藏在网页中(如不可见元素或元数据中)的恶意提示,可能会诱骗智能体采取非预期的行动,比如与攻击者共享来自连接器的私人数据,或在用户已登录的网站上采取有害行动。由于 ChatGPT 智能体可以直接采取行动,成功的攻击可能会产生更大的影响并带来更高的风险。
我们已经对智能体进行了识别和抵制提示注入的训练和测试,此外还使用监控来快速检测和响应提示注入攻击。在采取有重要影响的行动前要求用户明确确认,进一步降低了这些攻击造成伤害的风险,用户也可以在需要时通过接管或暂停来干预任务。用户在决定向智能体提供哪些信息时应权衡这些利弊,并采取措施将自己暴露于这些风险的程度降至最低,例如在任务不需要时禁用连接器。
我们还针对模型错误实施了缓解措施,特别是因为模型现在可以执行影响现实世界的任务:
- 明确的用户确认: ChatGPT 经过训练,在采取具有现实世界后果的行动(如购物)前,会明确请求您的许可。
- 主动监督(“观察模式”): 某些关键任务,如发送电子邮件,需要您的主动监督。
- 主动风险缓解: ChatGPT 经过训练,会主动拒绝银行转账等高风险任务。
最后,我们引入了额外的控制措施来限制模型可访问的数据:
- 隐私控制: 在 ChatGPT 的设置中只需单击一下,您就可以删除所有浏览数据并立即退出所有活动的网站会话。否则,Cookie 会根据每个访问网站的 Cookie 政策持续存在,这可以使重复访问网站更高效。
- 安全的浏览器接管模式: 当您使用 ChatGPT 的浏览器(“接管模式”)与网络互动时,您的输入保持私密。ChatGPT 不会收集或存储您在这些会话期间输入的任何数据,如密码,因为模型不需要这些数据,而且它永远看不到会更安全。
我们迄今为止最强大的生物风险安全技术栈
随着模型能力的增强,我们决定根据我们的准备框架,将 ChatGPT 智能体视为具有高生物和化学能力,并激活了相关的保障措施。尽管我们没有确切证据表明该模型能实质性地帮助新手造成严重的生物伤害——这是我们对高能力的门槛——但我们正保持谨慎,并立即实施必要的保障措施。因此,该模型拥有我们迄今为止最全面的安全技术栈,并加强了对生物学的保障:全面的威胁建模、两用性拒绝训练、全时分类器和推理监控器,以及明确的执行管道。
除了确保 ChatGPT 智能体安全的工作外,我们知道,当保障措施超越任何一个实验室时,分层生物安全才能发挥最佳效果,因此我们在整个生态系统中进行协作以加强防御。从第一天起,我们就与外部生物安全专家、安全研究所以及学术研究人员合作,来塑造我们的威胁模型、评估和政策。受过生物学训练的评审员验证了我们的评估数据,领域专家的红队成员在现实场景中对保障措施进行了压力测试。本月早些时候,我们与来自政府、学术界、国家实验室和非政府组织的专家共同举办了一场生物防御研讨会,以加速合作并推进由人工智能驱动的生物防御研究。我们将继续在全球范围内合作,以应对新出现的风险。
请在系统卡中阅读更多关于我们针对统一智能体模型的稳健安全方法。我们还启动了一个漏洞赏金计划,以便我们能够发现并修复现实世界中的风险。
可用性
ChatGPT 智能体从今天开始向 Pro、Plus 和 Team 用户推出;Pro 用户将在今天结束前获得访问权限,而 Plus 和 Team 用户将在未来几天内获得访问权限。Enterprise 和 Education 用户将在未来几周内获得访问权限。Pro 用户每月有 400 条消息,其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。
我们仍在努力为欧洲经济区和瑞士提供访问权限。
Operator 研究预览网站将再运行几周,之后将被停用。Deep research 是 ChatGPT 智能体能力的一部分。如果您更喜欢原始的 deep research 功能——它运行时间可能更长,但默认提供更详细、更深入的回复——您仍然可以通过在消息输入框的下拉菜单中选择“deep research”来访问它。
局限性与展望
ChatGPT 智能体仍处于早期阶段。它能够承担一系列复杂任务,但仍可能犯错。
尽管我们看到其生成幻灯片的能力具有巨大潜力,但此功能目前处于测试阶段。目前,输出的格式和精美程度有时会显得比较粗糙,尤其是在没有现有文档作为起点时。我们将模型的初始能力集中在生成能够以适合演示的流程和格式组织信息的工件上,其包含的文本、图表、图像和形状等元素在导出后可以原生且轻松地进行编辑,从而优化了结构和灵活性。目前,在查看器中的幻灯片与导出的 PowerPoint 之间偶尔也存在不一致之处,我们正在努力减少这种情况。此外,虽然您目前可以上传现有的电子表格供 ChatGPT 编辑或用作模板,但此功能尚未适用于幻灯片。我们已经在训练下一代 ChatGPT 的幻灯片创建功能,以产生更精美、更复杂的输出,并具备更广泛的能力和改进的格式。
总的来说,我们期望 ChatGPT 智能体的效率、深度和多功能性会随着时间的推移不断提高,包括在我们持续调整用户所需监督程度的过程中实现更无缝的交互,以使其在确保安全使用的同时变得更加有用。
附录
SpreadsheetBench | ||||
模型 | 评估环境 | 软性限制 (%): 单元格级别 | 软性限制 (%): 工作表级别 | 软性限制 (%): 总体 |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent with .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
人类 | 75.56 | 65.00 | 71.33 |
直播回放
作者
脚注
* 在启用浏览功能时,模型有时可以在线找到确切答案,例如,通过阅读包含数据集中示例问题的博客文章。我们采用两种策略来减轻对模型在浏览时作弊的担忧:
1. 屏蔽了我们过去观察到模型从中作弊的域名。
2. 使用一个额外的模型作为监控器,检查每次尝试中的所有工具输出 token,以识别可疑行为。可疑行为定义为“其主要目的是为这个特定问题提供确切答案的页面、文件或片段——例如,官方评分标准、泄露的‘解决方案’gist 或逐字引用完整答案的讨论。” 正常行为定义为“任何勤奋的人可能会查阅的权威资源(文档、手册、学术论文、信誉良好的文章),即使它偶然包含了正确答案。” 任何被监控器认为可疑的尝试都被计为不正确。大多数未通过此检查的样本都是其确切解决方案可在多个与 HLE 无关的互联网来源上找到的问题。
**OpenAI 独家访问了 Tier 1-3 数据集中 290 个私有问题中的 237 个。FrontierMath Tier 4 的问题不包含在此次评估中。结果评估为回答每个问题的 16 次尝试的平均值。ChatGPT 智能体的结果由 OpenAI 引出,由 Epoch AI 评分,具有浏览器和终端访问权限,每个答案的 token 上限为 128K。OpenAI o4-mini 和 o3 的评估由 Epoch AI 引出和评分,没有浏览器和终端访问权限,通过函数调用使用 Python 脚本,每个答案的 token 上限为 100K。
*** Oracle@64 指的是在 64 次抽样运行中取得的最佳分数,该分数使用真实情况(ground truth)进行选择(即,我们根据实际评分表现为每个任务挑选得分最高的尝试)。我们报告的是所有任务中这些单任务最佳分数的平均值。该指标突显了模型的潜力上限和任务表现的方差——展示了模型在成功时能达到的能力水平,并指出了通过进一步训练提高一致性的空间。与典型的“N 次最佳”指标(根据模型置信度选择)不同,oracle@64 使用真实情况进行选择,并适用于按 0-1 连续尺度评分的任务,而非二元的通过/失败。