OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy