2025 年 3 月 12 日,OpenAI 发布了一系列新的 API 和工具,旨在简化开发者和企业构建实用且可靠的 “生成式 AI 产品” 代理(agents)。

Responses API

Responses API 是构建 “生成式 AI 产品” 代理的新 API 原语,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。通过单个 Responses API 调用,开发者可以使用多种工具和模型轮次来解决复杂的任务。

Responses API 初始支持的内置工具包括:

  • 网页搜索:使用 gpt-4o 和 gpt-4o-mini 模型时可用的工具,可以提供快速、最新的答案,并带有清晰且相关的来源引用。在 SimpleQA 基准测试中,GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别获得了 90% 和 88% 的准确率。网页搜索 API 返回的结果包含来源链接。
  • 文件搜索:可以从大量文档中轻松检索相关信息,支持多种文件类型、查询优化、元数据过滤和自定义重排序。定价为每千次查询 2.50 美元,文件存储为每月每 GB 0.10 美元,首 GB 免费。
  • 计算机使用:由与 Operator 相同的 Computer-Using Agent (CUA) 模型驱动,可以自动化计算机上的任务。在 OSWorld 基准测试中,成功率为 38.1%,WebArena 为 58.1%,WebVoyager 为 87%。使用此工具需要注意安全风险和模型可能出现的错误,建议人工监督。

API 迁移

  • Chat Completions API:仍然是广泛使用的 API,OpenAI 将继续支持并为其提供新模型和功能。对于不需要内置工具的开发者,可以继续使用 Chat Completions API。
  • Assistants API:Responses API 吸收了 Assistants API 的关键改进,使其更灵活、更快、更易于使用。OpenAI 计划在 2026 年中期正式宣布弃用 Assistants API,并提供迁移指南。在此之前,Assistants API 将继续获得新模型支持。Responses API 代表了 OpenAI 构建 “生成式 AI 产品” 代理的未来方向。

Agents SDK

Agents SDK 是一个新的开源 SDK,用于简化多代理工作流程的编排。它提供了优于 Swarm SDK 的改进,包括:

  • Agents:易于配置的 LLM,具有清晰的指令和内置工具。
  • Handoffs:智能地在代理之间转移控制权。
  • Guardrails:可配置的输入和输出验证安全检查。
  • Tracing & Observability:可视化代理执行跟踪,以调试和优化性能。

Agents SDK 适用于各种应用场景,例如客户支持自动化、多步骤研究、内容生成、代码审查和销售线索挖掘。它与 Responses API 和 Chat Completions API 兼容,并且即将支持 Node.js。

原文:用于构建 AI Agent 的新工具

今天,我们发布了一系列基础模块,旨在帮助开发者和企业更轻松地构建 AI 智能体。AI 智能体可以理解为代表用户自主完成任务的系统。过去一年,我们不断提升模型能力,例如高级推理、多模态交互和安全技术,这些都为构建能够处理复杂任务的 AI 智能体奠定了基础。然而,许多客户反馈,将这些能力转化为生产级别的 AI 智能体仍然面临挑战,通常需要反复调整提示 (prompt),进行自定义的流程编排,而且缺乏足够的可见性和内置支持。

为了解决这些难题,我们推出了一套全新的 API 和工具,专门用于简化 AI 智能体应用的开发:

  • Responses API: 这是一种新的 API,它融合了 Chat Completions API 的简洁性和 Assistants API 的工具调用能力,专门用于构建 AI 智能体。Responses API
  • 内置工具: 包括网络搜索文件搜索计算机使用 等,这些工具可以帮助 AI 智能体连接到现实世界,更好地完成任务。
  • Agents SDK: 用于编排单 AI 智能体和多 AI 智能体的工作流程。Agents SDK
  • 集成化观测工具: 用于追踪和检查 AI 智能体工作流程的执行情况。可观察性工具

这些新工具简化了 AI 智能体的核心逻辑、流程编排和交互方式,让开发者能够更轻松地入门。未来,我们还将发布更多工具和功能,进一步简化和加速 AI 智能体应用的开发。

隆重推出 Responses API

Responses API 是一种全新的 API,旨在帮助开发者利用 OpenAI 的强大工具构建 AI 智能体。它结合了 Chat Completions API 的简洁和 Assistants API 的工具调用能力。随着模型能力的不断增强,我们相信 Responses API 将为 AI 智能体应用的开发提供更灵活的基础。开发者只需调用一次 Responses API,即可利用多种工具和模型,解决日益复杂的任务。

Responses API 首先将支持网络搜索、文件搜索和计算机使用等内置工具。这些工具可以协同工作,将 AI 智能体与现实世界连接起来,使其在完成任务时更加有效。此外,Responses API 还改进了易用性,例如统一的项目设计、更简单的多态性、直观的流式传输事件,以及 SDK 助手(如 response.output_text,可以轻松访问模型的文本输出)。

Responses API 专为那些希望将 OpenAI 模型和内置工具轻松集成到应用中的开发者而设计,无需处理多个 API 或外部供应商带来的复杂性。通过 Responses API,开发者还可以更方便地在 OpenAI 上存储数据,并使用追踪和评估等功能来评估 AI 智能体的性能。请注意,即使数据存储在 OpenAI 上,我们 默认情况下也不会使用 您的业务数据来训练模型。Responses API 现已面向所有开发者开放,不单独收费。Token 和工具的使用将按照 定价页面 上的标准费率收取。要了解更多信息,请查阅 Responses API 的 快速入门指南

对现有 API 的影响

  • Chat Completions API:Chat Completions 仍然是我们使用最广泛的 API,我们将继续通过新模型和功能为其提供支持。如果开发者不需要内置工具,可以继续使用 Chat Completions。只要新模型的功能不依赖于内置工具或多次模型调用,我们就会继续为 Chat Completions 发布新模型。但是,Responses API 是 Chat Completions 的 超集,并且性能同样出色。因此,对于新的集成项目,我们建议从 Responses API 开始。

  • Assistants API:根据 Assistants API Beta 版本的开发者反馈,我们对 Responses API 进行了多项关键改进,使其更灵活、更快速、更易于使用。我们正在努力实现 Assistants API 和 Responses API 之间的完整功能对等,包括支持 Assistant 和 Thread 对象,以及代码解释器工具。完成这些工作后,我们将正式宣布弃用 Assistants API,计划于 2026 年中期停止支持。在弃用后,我们将提供清晰的迁移指南,帮助开发者从 Assistants API 迁移到 Responses API,并确保所有数据和应用程序都能顺利迁移。在正式宣布弃用之前,我们将继续为 Assistants API 提供新的模型。总而言之,Responses API 代表了 OpenAI 构建 AI 智能体的未来方向。

网络搜索

现在,开发者可以通过网络搜索获得快速、最新的答案,并提供清晰、相关的引用信息。在 Responses API 中,网络搜索可以作为 gpt-4o 和 gpt-4o-mini 的一个工具使用,并可以与其他工具或函数调用结合使用。

const response = await openai.responses.create({
    model: "gpt-4o",
    tools: [ { type: "web_search_preview" } ],
    input: "What was a positive news story that happened today?",
});

console.log(response.output_text);

在早期的测试中,我们发现开发者利用网络搜索构建了各种应用场景,包括购物助手、研究 AI 智能体和旅行预订 AI 智能体等等,几乎任何需要从网络获取实时信息的应用都可以使用它。

例如,Hebbia 利用网络搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所,从海量的公共和私人数据集中快速提取有价值的见解。通过将实时搜索功能集成到他们的研究流程中,Hebbia 可以提供更丰富、更具针对性的市场情报,并持续提高分析的准确性和相关性,超越了现有的行业基准。

API 中的网络搜索功能由 ChatGPT 搜索使用的同款模型驱动。在 SimpleQA 基准测试中,该基准用于评估大语言模型 (LLM) 在回答简短的事实性问题时的准确性,GPT‑4o 搜索预览版和 GPT‑4o mini 搜索预览版的得分分别高达 90% 和 88%。

simpleqa

SimpleQA 准确率 (越高越好)

通过 API 中的网络搜索生成的结果会包含指向信息来源的链接,例如新闻文章和博客,方便用户了解更多信息。清晰的内联引用让用户能够以全新的方式获取信息,同时也为内容创作者带来了接触更广泛受众的机会。

任何网站或发布者都可以选择在 API 的网络搜索结果中显示

网络搜索工具目前以预览版的形式向 Responses API 中的所有开发者开放。此外,我们还通过 gpt-4o-search-previewgpt-4o-mini-search-preview 这两个模型,让开发者可以在 Chat Completions API 中直接访问我们微调过的搜索模型。定价方面,GPT‑4o 搜索和 4o-mini 搜索分别从每千次查询 30 美元和 25 美元起。您可以在 Playground 中体验网络搜索,并在我们的文档中了解更多详细信息。

文件搜索

现在,开发者可以使用经过改进的文件搜索工具,轻松地从大量文档中检索相关信息。该工具支持多种文件类型、查询优化、元数据过滤和自定义排序,能够提供快速且准确的搜索结果。更重要的是,通过 Responses API,您只需编写几行代码即可完成集成。

const productDocs = await openai.vectorStores.create({
    name: "Product Documentation",
    file_ids: [file1.id, file2.id, file3.id],
});

const response = await openai.responses.create({
    model: "gpt-4o-mini",
    tools: [{
        type: "file_search",
        vector_store_ids: [productDocs.id],
    }],
    input: "What is deep research by OpenAI?",
});

console.log(response.output_text);

文件搜索工具适用于各种实际应用场景,例如,客户支持 AI 智能体可以轻松访问常见问题解答,法律助理可以快速查阅过往案例,编码 AI 智能体可以查询技术文档。例如,Navan 在其 AI 驱动的旅行助手中使用文件搜索,以便快速向用户提供来自知识库文章(例如公司旅行政策)的精确答案。借助内置的查询优化和排序功能,他们可以构建强大的检索增强生成 (RAG) 流程,而无需进行额外的调整或配置。通过为每个用户组建立专门的向量存储,Navan 能够根据个人账户设置和用户角色定制答案,从而节省客户及其员工的时间,并提供准确且个性化的支持。

所有开发者都可以通过 Responses API 使用该工具。定价方面,每千次查询的费用为 2.50 美元,文件存储费用为每天每 GB 0.10 美元,首 GB 免费。该工具也仍然可以在 Assistants API 中使用。此外,我们在 Vector Store API 对象中添加了一个新的搜索端点,允许您直接查询自己的数据,以便在其他应用程序和 API 中使用。您可以在我们的文档中了解更多信息,并在 Playground 中开始测试。

计算机使用

为了构建能够完成计算机操作的 AI 智能体,开发者现在可以使用 Responses API 中的计算机使用工具,该工具由与 Computer-Using Agent (CUA) 模型相同的模型提供支持,该模型也驱动着 Operator。该研究预览模型在多个基准测试中创下了新的记录:在 OSWorld 上,完整计算机使用任务的成功率达到 38.1%;在 WebArena 上达到 58.1%;在 WebVoyager 上,基于 Web 的交互成功率达到 87%。这些数据表明,该模型在模拟人类使用计算机完成任务方面取得了显著进展。

内置的计算机使用工具可以捕获模型生成的鼠标和键盘操作,开发者可以通过将这些操作直接转换为环境中的可执行命令,从而自动化计算机使用任务。

const response = await openai.responses.create({
    model: "computer-use-preview",
    tools: [{
        type: "computer_use_preview",
        display_width: 1024,
        display_height: 768,
        environment: "browser",
    }],
    truncation: "auto",
    input: "I'm looking for a new camera. Help me find the best one.",
});

console.log(response.output);

开发者可以利用计算机使用工具来自动化基于浏览器的各种流程,例如对 Web 应用程序执行质量保证,或者跨多个旧系统执行数据录入任务。例如,Unify 是一款用于提高收入的系统,它使用 AI 智能体来识别用户意图、研究账户信息并与潜在客户互动。通过使用 OpenAI 的计算机使用工具,Unify 的 AI 智能体可以访问以前无法通过 API 获取的信息,例如,帮助一家物业管理公司通过在线地图验证某家企业是否扩大了其房地产规模。这种分析可以作为自定义信号,触发个性化的客户拓展活动,从而帮助市场团队更精确、更高效地与潜在客户互动。

另一个例子是,Luminai 集成了计算机使用工具,用于自动化大型企业中缺乏 API 和标准化数据的旧系统的复杂运营流程。在最近与一家大型社区服务机构的试点项目中,Luminai 在短短几天内就自动化了应用程序处理和用户注册流程,而传统的机器人流程自动化 (RPA) 方案需要数月才能实现。

在去年于 Operator 中推出 CUA 之前,我们进行了广泛的安全测试和安全攻防演练,重点关注三个关键风险领域:滥用、模型错误和前沿风险。为了解决与通过 API 中的 CUA 将 Operator 的功能扩展到本地操作系统相关的风险,我们进行了额外的安全评估和安全攻防演练。此外,我们还为开发者添加了额外的保护措施,包括用于防范提示注入的安全检查、用于敏感任务的确认提示、帮助开发者隔离环境的工具,以及增强的潜在策略违规检测功能。虽然这些措施有助于降低风险,但该模型仍然可能出现无意的错误,尤其是在非浏览器环境中。例如,CUA 在 OSWorld 基准测试中的表现为 38.1%,这意味着该模型在自动化操作系统上的任务时,可靠性还有待提高。因此,在这些场景下,我们建议进行人工监督。有关我们 API 安全工作的更多详细信息,请参阅我们更新的 系统卡

基准类型基准计算机使用 (通用界面)网页浏览 AI 智能体人类
OpenAI CUA之前最佳结果之前最佳结果
计算机使用OSWorld38.1%22.0%-72.4%
浏览器使用WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-

评估详情请参考 此处

Agents SDK

除了构建 AI 智能体的核心逻辑,并赋予其访问各种工具的能力之外,开发者还需要对 AI 智能体的工作流程进行编排。我们全新推出的开源 Agents SDK 简化了多 AI 智能体工作流程的编排,与我们去年发布的实验性 SDK Swarm 相比,Agents SDK 带来了显著的改进。Swarm 曾被开发者社区广泛采用,并成功部署于多个客户的项目中。

Agents SDK 的改进包括:

  • AI 智能体:可以轻松配置的大语言模型 (LLM),具有清晰的指令和内置工具。
  • 移交:在 AI 智能体之间智能地转移控制权。
  • 防护栏:用于输入和输出验证的可配置安全检查。
  • 追踪与可观测性:可视化 AI 智能体的执行轨迹,以便调试和优化性能。
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

@function_tool
def submit_refund_request(item_id: str, reason: str):
    # Your refund logic goes here
    return "success"

support_agent = Agent(
    name="Support & Returns",
    instructions="You are a support agent who can submit refunds [...]",
    tools=[submit_refund_request],
)

shopping_agent = Agent(
    name="Shopping Assistant",
    instructions="You are a shopping assistant who can search the web [...]",
    tools=[WebSearchTool()],
)

triage_agent = Agent(
    name="Triage Agent",
    instructions="Route the user to the correct agent.",
    handoffs=[shopping_agent, support_agent],
)

output = Runner.run_sync(
    starting_agent=triage_agent,
    input="What shoes might work best with my outfit so far?",
)

Agents SDK 适用于各种实际应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售线索挖掘。例如,Coinbase 使用 Agents SDK 快速构建原型并部署了 AgentKit,该工具包使 AI 智能体能够与加密货币钱包和各种链上活动无缝交互。在短短几个小时内,Coinbase 就将来自其 Developer Platform SDK 的自定义操作集成到了一个功能齐全的 AI 智能体中。AgentKit 简化的架构简化了添加新的 AI 智能体操作的过程,使开发者能够更专注于有意义的集成,而无需花费大量精力来配置复杂的 AI 智能体设置。

在短短几天内,Box 就利用网络搜索和 Agents SDK 快速创建了 AI 智能体,使企业能够搜索、查询和提取存储在 Box 和公共互联网来源中的非结构化数据,从而获得有价值的见解。这种方法不仅使客户能够访问最新的信息,还能够以安全的方式搜索其内部专有数据,并遵守其内部权限和安全策略。例如,一家金融服务公司可以构建一个自定义的 AI 智能体,该 AI 智能体会调用 Box AI 智能体,将存储在 Box 中的内部市场分析数据与来自 Web 的实时新闻和经济数据相结合,从而为分析师提供全面的投资决策依据。

Agents SDK 可以与 Responses API 和 Chat Completions API 协同工作。此外,只要提供符合 Chat Completions 风格的 API 端点,该 SDK 也可以与其他提供商的模型配合使用。开发者可以立即将 Agents SDK 集成到他们的 Python 代码库中,Node.js 的支持也将很快推出。您可以在我们的 文档 中了解更多信息。

在设计 Agents SDK 时,我们的团队受到了社区中其他优秀项目 (例如 PydanticGriffeMkDocs) 的启发。我们将继续以开源框架的形式构建 Agents SDK,以便社区中的其他人可以扩展我们的工作。

未来展望:构建 AI 智能体平台

我们相信,AI 智能体很快将成为劳动力的重要组成部分,从而显著提高各行各业的生产力。随着越来越多的公司希望利用 AI 来完成复杂的任务,我们将致力于提供各种构建模块,帮助开发者和企业高效地创建能够带来实际影响的自主系统。

通过今天发布的这些工具,我们希望能帮助开发者和企业更轻松地构建、部署和扩展可靠、高性能的 AI 智能体。随着模型能力变得越来越智能化,我们将继续加大投入,在 API 之间实现更深入的集成,并开发新的工具来帮助开发者在生产环境中部署、评估和优化 AI 智能体。我们的目标是为开发者提供无缝的平台体验,帮助他们构建可以跨任何行业执行各种任务的 AI 智能体。我们非常期待开发者们接下来的精彩作品。要开始使用这些工具,请查阅我们的 文档 并继续关注我们即将发布的更新。