OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。

关键细节

  • 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。
  • 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。
  • 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。
  • 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。
  • 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。
  • 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。
  • 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。
  • 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26.6% 的准确率,显著高于 GPT-4o (3.3%) 和 OpenAI o1 (9.1%) 等其他模型。在 GAIA 基准测试中,该模型也达到了最先进水平 (SOTA)。
  • 局限性: Deep Research 仍处于早期阶段,可能存在幻觉事实、错误推断、难以区分权威信息和谣言、置信度校准不足以及格式错误等问题。但 OpenAI 预计这些问题会随着使用和时间的推移迅速改善。
  • 访问限制与未来计划: 初期 Deep Research 对 Pro 用户有每月 100 次查询的限制。未来将向 Plus、Team 和 Enterprise 用户开放。OpenAI 还在努力为英国、瑞士和欧洲经济区 (EEA) 的用户提供访问权限。未来还将推出更快、更经济的版本,并提高速率限制。长期来看,OpenAI 计划将 “deep research” 与 “Operator” 等其他代理功能结合,实现更复杂的异步研究和执行任务。

Introducing deep research

2025年2月2日

我们推出了一款 AI 智能体,它能够运用推理能力,整合海量在线信息,并为你完成多步骤的研究任务。今天,Pro 用户即可使用,Plus 和 Team 用户将在稍后获得使用权限。

今天,我们在 ChatGPT 中推出 “Deep Research” 功能,这是一种全新的 AI 智能体能力,可以针对复杂任务在互联网上进行多步骤研究。它可以在几十分钟内完成人类需要花费数小时才能完成的工作。

“Deep Research” 是 OpenAI 推出的新一代 AI 智能体,它可以独立为你工作。你只需给它一个指令,ChatGPT 就会查找、分析和整合数百个在线资源,生成一份达到研究分析师水平的综合报告。这项功能由即将推出的 OpenAI o3 模型的一个优化版本驱动,该版本针对网页浏览和数据分析进行了特别优化。它利用强大的推理能力,在互联网上搜索、解读和分析大量的文本、图像和 PDF 文件,并能根据遇到的新信息灵活调整研究方向。

知识的整合是创造新知识的必要前提。因此,“Deep Research” 标志着我们在实现通用人工智能 (AGI) 的宏伟目标上迈出了重要一步。我们一直认为,通用人工智能 (AGI) 有能力进行开创性的科学研究。

我们为什么开发 Deep Research ?

“Deep Research” 是为那些在金融、科学、政策和工程等领域从事大量知识工作,需要全面、精确和可靠研究的人士量身打造的。对于那些在购买汽车、家电和家具等大件商品时,需要进行细致研究并寻求高度个性化建议的精明消费者来说,它同样非常有用。“Deep Research” 的每一项输出都附有完整的文档,包括清晰的引用和分析思路的总结,方便用户查阅和验证信息。它尤其擅长发现那些隐藏在大量网站中的小众、非直观的信息。你只需提出一个问题,“Deep Research” 就可以帮你卸下繁琐耗时的网络研究工作,从而节省宝贵的时间。

“Deep Research” 能够独立地从网络中发现、推理和整合各种信息。为了实现这一目标,我们使用与 OpenAI 的第一个推理模型 o1 相同的强化学习方法,在需要使用浏览器和 Python 工具的真实任务中对它进行了训练。虽然 o1 在编码、数学和其他技术领域展现出强大的能力,但许多现实世界的挑战需要从各种在线来源收集大量的背景信息。“Deep Research” 正是基于这些推理能力,弥补了这一差距,使它能够处理人们在工作和日常生活中遇到的各种复杂问题。

如何使用 Deep Research ?

在 ChatGPT 中,只需在消息编辑器中选择 “Deep Research” 并输入你的问题。告诉 ChatGPT 你需要什么,无论是关于流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告。你还可以附加文件或电子表格,为你的问题提供更多背景信息。一旦开始运行,侧边栏会显示研究步骤和所用信息来源的摘要。

“Deep Research” 可能需要 5 到 30 分钟才能完成,因为它需要时间深入挖掘网络信息。在此期间,你可以离开或进行其他工作。研究完成后,你会收到通知。最终的研究结果将以报告的形式在聊天窗口中呈现。在接下来的几周内,我们还将在报告中加入嵌入式图像、数据可视化和其他分析结果,以进一步增强报告的清晰度和背景信息。

与 “Deep Research” 相比,GPT-4o 更适合用于实时的多模态对话。而对于那些需要深入细致的 多方面、特定领域 的查询,“Deep Research” 通过广泛探索并注明每一项主张的出处,可以提供一份详实、可验证的报告,这与快速总结有着本质的区别,使其可以直接作为工作成果使用。

“Deep Research” 会以高度详细的方式响应你的问题,并列出前 10 大发达国家和前 10 大发展中国家的具体数据,方便你进行参考和比较。它会利用这些信息,提供具有参考价值、切实可行的市场进入建议。

工作原理

“Deep Research” 通过端到端的强化学习技术进行训练,使其能够处理各种领域的复杂浏览和推理任务。通过训练,它学会了规划和执行多步骤的搜索路径,以便找到所需的数据,并在必要时回溯并根据实时信息做出调整。该模型还能浏览用户上传的文件,使用 Python 工具绘制和迭代图表,并在回复中嵌入生成的图表和来自网站的图片,并引用信息来源中的具体语句或段落。经过这样的训练,它在许多专注于解决现实问题的公开评测中都取得了新的突破。

人类的最后考试

在最近发布的 “人类的最后考试”⁠(在新窗口中打开) 评测中,该评测旨在测试 AI 在各个领域的专家级问题上的表现,“Deep Research” 所使用的模型取得了 26.6% 的准确率新高。“人类的最后考试” 涵盖了从语言学到火箭科学、从古典文学到生态学的 100 多个学科,包含 3000 多个选择题和简答题。与 OpenAI 的 o1 模型相比,“Deep Research” 在化学、人文科学、社会科学和数学领域取得了显著的进步。“Deep Research” 所使用的模型在必要时能够有效地寻找专业信息,展现出类似人类的解决问题方式。

模型准确率 (%)
GPT-4o3.3
Grok-23.8
Claude 3.5 Sonnet4.3
Gemini Thinking6.2
OpenAI o19.1
DeepSeek-R1*9.4
OpenAI o3-mini (medium)*10.5
OpenAI o3-mini (high)*13.0
OpenAI Deep Research**26.6
  • 该模型并非多模态模型,仅在文本子集上进行评估。 **使用了浏览功能和 Python 工具

GAIA

GAIA⁠(在新窗口中打开)1 公开基准测试中,该测试旨在评估 AI 在现实世界问题上的表现,“Deep Research” 所使用的模型达到了新的最先进水平(SOTA),在外部 排行榜⁠(在新窗口中打开) 上名列前茅。GAIA 基准测试涵盖了三个难度级别的问题,成功完成这些任务需要 AI 具备推理、多模态理解、网页浏览和工具使用等多种能力。

GAIA 任务示例

专家级任务

在对各个领域的专家级任务进行的内部评估中,相关领域的专家认为 “Deep Research” 能够自动化完成原本需要数小时的人工调查工作。

通过率与工具调用次数的关系

xxx

任务的预期经济价值与通过率的相关性更高,而并非与人类完成任务所需的时间相关。这表明,模型认为困难的事情与人类认为耗时的事情有所不同。

局限性

“Deep Research” 虽然带来了强大的新功能,但仍处于早期阶段,存在一定的局限性。根据内部评估,它有时会在回复中 “虚构” 事实或做出不正确的推断,尽管这种情况的发生率明显低于现有的 ChatGPT 模型。“Deep Research” 可能难以区分权威信息和谣言,并且在置信度校准方面存在不足,常常无法准确地表达不确定性。在发布初期,报告和引用中可能会出现一些细微的格式错误,并且任务启动可能需要更长的时间。我们相信,随着用户的不断使用和时间的推移,所有这些问题都会得到快速改善。

访问权限

目前,ChatGPT 中的 “Deep Research” 功能对计算资源的需求非常高。研究查询所需的时间越长,所需的计算资源就越多。我们首先为 Pro 用户 提供一个优化版本,每月最多可进行 100 次查询。接下来将为 Plus 和 Team 用户 提供访问权限,最后是企业用户。我们仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

当发布由较小模型驱动、速度更快、成本效益更高的 “Deep Research” 版本时,所有付费用户都将获得更高的使用额度,同时仍能保持高质量的研究结果。

在接下来的几周和几个月里,我们将致力于完善技术基础设施,密切监控当前版本的运行情况,并进行更严格的测试。这符合我们迭代开发的原则。如果所有安全检查都符合我们的发布标准,我们预计将在大约一个月后向 Plus 用户发布 “Deep Research”。

未来展望

“Deep Research” 目前已在 ChatGPT 网页版上线,并将在本月内推广到移动和桌面应用程序。目前,“Deep Research” 可以访问开放的网络和任何上传的文件。未来,它将能够连接到更专业的数据源,例如付费订阅或内部资源,从而使其输出更加强大和个性化。

展望未来,我们希望将 AI 智能体的各种体验整合到 ChatGPT 中,实现异步、现实世界的研究和执行。“Deep Research”(可以进行异步在线调查)和 Operator (可以执行现实世界的任务)的结合将使 ChatGPT 能够为你执行日益复杂的任务。

脚注

  1. 我们发现此数据集的真实答案已在网上广泛泄露,因此我们屏蔽了一些网站或 URL,以确保对模型进行公平的评估。

研究负责人

Isa Fulford, Zhiqing Sun

基础贡献者

Alex Tachard Passos, Alexandra Barr, Allison Tam, Charlotte Cole, Hyung Won Chung, Jason Wei, Jon Blackman, Scott Mayer McKinney, Valerie Qi

核心贡献者

研究

Elaine Ya Le, Eric Mitchell, Eric Wallace, Ignasi Clavera, Leo Liu, Lorenz Kuhn, Louis Feuvrier, Max Schwarzer, Saachi Jain, Scottie Yan, Shunyu Yao, Vitchyr Pong

部署

Carpus Chang, Harry Zhao, Joseph Trasatti, Joshua Dickens, Matt Kaufer, Mike Trpcic, Minnia Feng, Neel Ajjarapu, Peter Vidani, Sean Fitzgerald

贡献者

研究

Ahmed El-Kishky, AJ Ostrow, Alexander Wei, Andrei Gheorghe, Andrew Kondrich, Andrey Mishchenko, Anuj Nair, Behrooz Ghorbani, Brydon Eastman, Chak Li, Foivos Tsimpourlas, Francis Song, Giambattista Parascandolo,Gildas Chabot, Haitang Hu, Hessam Bagherinezhad, Hongyu Ren, Henry Aspegren, Hunter Lightman, Ilya Kostrikov, Ilge Akkaya, James Lennon, Jean Harb, Jonathan Ward, Kai Chen, Katy Shi, Kevin Liu, Kevin Yu, Manuka Stratta, Marvin Zhang, Mengyuan Yan, Mostafa Rohaninejad, Noam Brown, Phoebe Thacker, Raz Goan, Reah Miyara, Spencer Papay, Taylor Gordon, Wenda Zhou, Yash Patil, Yann Dubois, Yushi Wang, Wenlei Xie, Wyatt Thompson, Youlong Chen

  • 所有 o3 模型的贡献者。

安全系统

Adam Kalai, Andrea Vallone, Elizabeth Proehl, Evan Mays, Grace Zhao, Irina Kofman, Joaquin Quinonero Candela, Lama Ahmad, Leon Maksin, Michele Wang, Miles Wang, Sam Toizer, Sandhini Agarwal, Olivia Watkins, Owen Campbell-Moore, Patrick Chao, Kristen Ying, Tejal Patwardhan, Tina Sriskandarajah, Troy Peterson, Yaodong Yu

传播

Adam Koppel, Adam Wells, Adele Li, Andy Applebaum, Andrey Malevich, Andrew Duberstein, Andrew Howell, Anton Tananaev, Ashley Tyra, Brandon Walkin, Bryan Ashley, Cary Bassin, Cary Hudson, Cory Decareaux, Cristina Scheau, Derek Chen, David Robinson, Dibya Bhattacharjee, Drea Lopez, Eric Antonow, Eric Burke, Filippo Raso, Fotis Chantzis, Freddie Sulit, Harris Cohen, Heather Whitney, Jay Dixit, Jeffrey Han, Jen Robinson, Jessica Shieh, Joel Parish, Kan Wu, Kevin Gladstone, Kshitij Wadhwa, Leo Vandriel, Leyton Ho, Liang Chen, Madeline Christian, Mamie Rheingold, Matt Jones, Michelle Fradin, Mike McClay, Mingxuan Wang, Nacho Soto, Niko Felix, Patrick Delaney, Paul McMillan, Philip Pronin, Rodrigo Riaza Perez, Samuel Miserendino, Scott Ethersmith, Steven Baldwin, Thomas Dimson, Tomo Hiratsuka, Yaming Lin, Yara Khakbaz, Yining Chen

领导团队

Akshay Nathan, Greg Brockman, Hannah Wong, Jakub Pachocki, Jerry Tworek, Johannes Heidecke, Josh Tobin, Liam Fedus, Mark Chen, Mia Glaese, Nick Turley, Sam Altman, Wojciech Zaremba