本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。
深入 OpenAI 全新超级智能体:一场与创作者的对话
想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。
我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。
“天作之合”:一切的起点
故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。
- Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。
- Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。
“我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。
团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。
同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。
不只是 1+1=2:超级智能体的全能工具箱
简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。
这个新智能体的工具箱就像一个瑞士军刀,包含了:
- 文本浏览器:继承自 Deep Research,用于快速高效地阅读和搜索文本信息。
- 图形(GUI)浏览器:继承自 Operator,能够与网页进行真实的可视化交互,点击、打字、处理动态内容。
- 终端(Terminal):让智能体能够运行代码、分析文件、进行复杂计算,甚至创建电子表格和幻灯片等产物。
- API 连接器:通过终端调用公共或私有 API,可以连接到你的 GitHub、Google Drive、SharePoint 等服务。
- 图像生成工具:如果需要,它还能自己动手,为报告或幻灯片配上精美的图片。
最关键的一点是,所有这些工具都共享同一个状态。就像你在自己的电脑上一样,从浏览器下载的文件可以立刻被其他应用程序访问和编辑。这个智能体可以在文本浏览器里高效浏览,发现需要交互时无缝切换到图形浏览器;它可以从网上下载数据,然后在终端里进行分析和处理,最后生成一份图文并茂的幻灯片。整个过程流畅自如。
如何训练一个数字“同事”?
你可能会好奇,这样一个聪明的智能体是如何被训练出来的?答案是强化学习(Reinforcement Learning)。
Edward 解释说,团队并没有像编写传统程序那样,告诉模型“遇到A情况就用B工具”。相反,他们创造了一个充满挑战的环境。
“我们基本上是把模型和所有这些工具一起锁在一个房间里,然后让它自己去试验。” Casey 形容道。
团队在数千台虚拟机上同时运行训练任务,给模型设定各种复杂的目标,比如“估算 OpenAI 的市值,并制作一个财务模型和展示幻灯片”。如果模型高效、准确地完成了任务,它就会得到“奖励”。通过不断的试错和学习,模型自己摸索出了在不同场景下使用哪种工具、以及如何组合工具才是最优解。
这种训练方式让模型学会了像人一样灵活思考,而不是死板地执行命令。
不只是工具,更是可以协作的伙伴
与以往的 AI 不同,这个新智能体被设计成一个真正的“合作者”。你可以像和同事在 Slack 上沟通一样与它互动。
- 它会提问:在你下达任务后,它可能会问一些澄清性问题,以确保完全理解你的需求。
- 你可以随时打断它:在任务进行中,你可以随时介入,说“等一下,我忘了说,我只想要蓝色的运动鞋”,或者“你现在进展到哪一步了?给我个总结。”
- 它会寻求许可:当需要执行一些关键操作(比如购买商品)或需要你登录授权时,它会停下来征求你的同意。
更有趣的是,你可以通过一个界面实时“监视”它的工作过程,就像“站在同事的肩膀后面看他操作电脑一样”。如果需要,你甚至可以随时接管操作,帮它登录账户或输入信用卡信息,真正实现人机协同。
无法回避的难题:安全、安全、还是安全
当一个 AI 拥有了在真实世界中采取行动的能力时,安全就成了最重要的议题。团队投入了巨大的精力来构建安全护栏。
“互联网是个有点吓人的地方,” Casey 坦言,“有各种攻击者、诈骗和钓鱼网站。” 尽管模型经过训练能识别一些风险,但有时还是会被愚弄,或者为了完成任务而“过于热情”。
为了应对这些风险,团队构建了多层防御体系:
- 安全训练:在训练数据中加入大量关于安全风险的案例,教会模型识别和规避风险。
- 实时监控:有一个“监督员”模型,像杀毒软件一样,时刻监视着智能体的行为。一旦发现它访问可疑网站或执行危险操作,就会立即中止任务。
- 跨团队协作:安全、治理、法务、研究和工程团队紧密合作,从各个层面进行严格的红蓝对抗演练,寻找潜在漏洞。
- 快速响应机制:针对新出现的网络攻击,团队可以像更新杀毒软件病毒库一样,迅速更新监控系统,以应对未知威胁。
即使如此,这依然是一个需要持续迭代和完善的领域。
未来展望:一个更主动、更个性化的智能体
这次发布的,仅仅是这个宏大愿景的“最小可行性产品”。未来,团队希望在几个方向上实现更大的突破:
- 多轮对话与协作:进一步提升智能体在长时间、多步骤任务中的协作能力,让它成为一个能与你连续工作数小时的得力助手。
- 个性化与记忆:让智能体拥有记忆,了解你的偏好和习惯,提供更加个性化的服务。
- 主动性:未来的智能体不应总是被动地等待指令。它应该能够主动为你处理事务,甚至在你开口之前就完成你需要的工作。
- 终极形态——一个超级智能体:团队的共识是,未来的方向可能不是一堆各司其职的“金融分析师智能体”或“派对策划师智能体”,而是一个无所不能的“超级智能体”。就像一个能力超强的幕僚长,你只需下达最终目标,它自己就能判断需要哪些技能、调用哪些工具来完美地完成任务。
从最初的“天作之合”,到一个拥有全能工具箱的数字同事,再到一个需要严防死守的安全挑战,OpenAI 的这个新项目标志着 AI 智能体进入了一个全新的阶段。它不再仅仅是聊天框里的一个声音,而是正在成为我们电脑中一个真正“有血有肉”的行动者。
正如团队所说,他们只是搭建了一个框架,真正的魔法,将在全球用户的手中,以千千万万种意想不到的方式被创造出来。我们拭目以待。