OpenAI 发布了名为 Operator 的研究预览版智能代理,它能够使用自己的浏览器为用户执行任务。Operator 旨在通过模拟人类在浏览器上的操作(如打字、点击和滚动)来完成各种重复性任务,从而扩展 AI 的实用性,帮助用户节省时间和为企业创造新的互动机会。
- 技术原理
Operator 由名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。Operator 可以“看到”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)浏览器,无需自定义 API 集成即可在 Web 上执行操作。
- 应用场景与合作
Operator 可以处理各种浏览器任务,例如填写表格、订购杂货甚至创建 memes。OpenAI 正在与 DoorDash 、 Instacart 、 OpenTable 、 Priceline 、 StubHub 、 Thumbtack 、 Uber 等公司合作,以确保 Operator 满足现实世界的需求。此外,Operator 在公共部门应用中也具有潜力,例如与 Stockton 市合作,简化市民参与城市服务和计划的流程。
- 功能与特点
- 自主操作: Operator 是一个智能代理,用户只需给出任务,它就能独立执行。
- 广泛的任务处理: 能够处理各种重复性浏览器任务,例如填写表格、订购杂货等。
- 人机协作: 当遇到挑战或错误时,Operator 能够自我纠正;当遇到困难时,会将控制权交还给用户。
- 个性化定制: 用户可以通过添加自定义指令来个性化工作流程,并保存常用提示以便快速访问。
- 多任务处理: 用户可以同时运行多个任务,类似于在浏览器中使用多个标签页。
- 安全与隐私保障
- 多层安全防护: Operator 具有三层安全措施,以防止滥用并确保用户始终处于控制之下,包括接管模式、用户确认和任务限制。
- 数据隐私管理: 用户可以通过 ChatGPT 设置选择退出模型训练,并一键删除所有浏览数据和对话记录。
- 对抗性网站防御: Operator 具备检测和忽略提示注入、监控可疑行为以及快速更新安全措施的能力,以防御恶意网站的攻击。
- 局限性与未来展望
- 研究预览阶段: Operator 仍处于早期研究预览阶段,可能存在错误,尤其是在处理复杂界面时。
- 持续改进: OpenAI 将根据用户反馈不断改进 Operator 的准确性、可靠性和安全性。
- API 开放与功能增强: 未来计划将 CUA 模型通过 API 开放给开发者,并增强 Operator 处理更长、更复杂工作流程的能力。
- 扩大用户范围: 计划将 Operator 扩展到 Plus 、 Team 和 Enterprise 用户,并将其功能集成到 ChatGPT 中。
- 合作机构与用户评价
- 合作机构: DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, City of Stockton 等。
- 用户评价: Instacart 首席产品官 Daniel Danker 认为 Operator 是一个技术突破,使订购杂货等流程变得非常容易。Stockton 市信息技术主管 Jamil Niazi 认为 AI 可以使公民参与变得更加容易。
原文
2025 年 1 月 23 日
我们发布了一款 AI 智能体 (AI Agent) 的研究预览版,它可以使用自己的浏览器为你执行任务。该功能目前在美国向 Pro 用户开放。
今天,我们正式推出 Operator(在新窗口中打开),这是一款能够访问网络并为你执行任务的 AI 智能体 (AI Agent)。它拥有自己的浏览器,可以像人一样浏览网页,通过输入文字、点击和滚动等操作与网页互动。目前这还是一个研究预览版,这意味着它还存在一些局限性,我们会根据用户的反馈不断改进。Operator 是我们首批推出的 AI 智能体 (AI Agent) 之一,它能够独立完成你交给它的任务——你只需告诉它要做什么,它就会自动执行。
Operator 可以处理各种重复性的浏览器任务,比如填写表格、订购食品杂货,甚至制作表情包。这种使用人类日常使用的界面和工具的能力,大大扩展了 AI 的应用范围,不仅能帮助人们节省时间,还能为企业带来新的发展机遇。
为了确保安全稳妥地推广这项功能,我们首先从小范围开始试用。从今天起,美国地区的 Pro 用户可以通过 operator.chatgpt.com(在新窗口中打开) 体验 Operator。通过这个研究预览版,我们可以从用户和更广泛的生态系统中学习,并持续改进。未来,我们计划将这项功能推广到 Plus、Team 和 Enterprise 用户,并将其整合到 ChatGPT 中。
Operator 的工作原理
Operator 的核心是一个名为 计算机使用智能体 (Computer-Using Agent, CUA) 的新型模型。这个模型结合了 GPT-4o 的视觉能力和通过强化学习获得的高级推理能力,使其能够与图形用户界面 (GUI) 进行交互——也就是我们在屏幕上看到的按钮、菜单和文本框等。
Operator 能够像人一样“看到”(通过屏幕截图)并“操作”(使用鼠标和键盘的所有功能)浏览器,从而在无需自定义 API 集成的情况下,在网络上执行各种任务。
如果遇到困难或犯错,Operator 还会利用自己的推理能力进行自我纠正。当它遇到无法解决的问题时,会主动将控制权交还给用户,从而确保流畅的协作体验。
虽然 CUA 模型还处于早期阶段,并且存在一些限制,但它已经在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中取得了新的领先成绩。你可以在 我们的研究博客文章 中了解更多关于评估方法和 Operator 背后的研究信息。
如何使用
要开始使用,你只需要描述一下想要完成的任务,Operator 就会自动处理剩下的部分。用户可以随时选择接管远程浏览器的控制权。此外,当遇到需要登录、填写付款信息或解决验证码等任务时,Operator 也会主动请求用户接管。
用户可以通过添加自定义指令来个性化 Operator 的工作流程,例如,你可以为所有网站设置通用指令,也可以为特定网站(如 Booking.com)设置个性化偏好。Operator 还允许用户保存常用提示,方便在主页快速访问,这对于在 Instacart 上重复购买食品杂货等任务非常实用。就像在浏览器中使用多个标签页一样,用户可以通过创建新的对话,让 Operator 同时执行多个任务,例如在 Etsy 上定制马克杯,同时在 Hipcamp 上预订露营地。
生态系统与用户
Operator(在新窗口中打开) 将 AI 从被动工具转变为数字生态系统中的积极参与者。它不仅能帮助用户简化任务,还能为希望提升客户体验和转化率的企业带来 AI 智能体 (AI Agent) 的优势。我们正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 在满足实际需求的同时,也尊重现有的行业规范。此外,我们还看到 Operator 在提高公共服务效率方面具有巨大的潜力。为了进一步探索这些应用场景,我们正在与 斯托克顿市(在新窗口中打开) 等机构合作,简化市民注册城市服务和项目的流程。
“通过研究预览版,我们对 Operator 的了解不断深入,这将有助于我们找到利用 AI 让市民更便捷地参与城市建设的方法。”
—— 斯托克顿市信息技术主管 Jamil Niazi
我们首先向一部分用户发布 Operator,是为了能够快速学习,并根据真实的反馈改进其功能,从而在创新、信任和安全之间取得平衡。这种合作模式有助于确保 Operator 为用户、开发者、企业和公共部门等带来真正的价值。
“OpenAI 的 Operator 是一项技术突破,它让订购食品杂货等流程变得前所未有地便捷。”
—— Instacart 首席产品官 Daniel Danker
安全与隐私
确保 Operator 的安全使用是我们的首要任务。为此,我们设计了三重安全防护机制,以防止滥用,并确保用户始终拥有控制权。
首先,Operator 在设计上就确保用户始终处于主导地位,并在关键环节主动请求用户的输入:
接管模式:当需要输入敏感信息,如登录凭证或支付信息时,Operator 会主动要求用户接管控制。在接管模式下,Operator 不会收集或截取用户输入的任何信息。
用户确认:在执行任何重要操作(例如提交订单或发送邮件)之前,Operator 都会请求用户的确认。
任务限制:Operator 被设计为拒绝执行某些敏感任务,例如银行交易或需要高风险决策的任务,如在工作申请中做出选择。
监视模式:对于电子邮件或金融服务等特别敏感的网站,Operator 会要求用户密切监视其操作,以便及时发现任何潜在的错误。
其次,我们简化了 Operator 的数据隐私管理流程:
停止训练:在 ChatGPT 设置中关闭“为所有人改进模型”选项,意味着 Operator 中的数据将不会被用于训练我们的模型。
透明的数据管理:用户可以在 Operator 设置的隐私部分,一键删除所有浏览数据并退出所有网站。同时,用户也可以一键删除在 Operator 中产生的历史对话。
最后,我们还构建了防御机制,以防范恶意网站通过隐藏指令、恶意代码或网络钓鱼等手段误导 Operator:
谨慎导航:Operator 的设计使其能够检测并忽略注入的恶意提示。
监控系统:我们设置了专门的“监控模型”,用于检测可疑行为。如果发现异常,该模型会暂停任务。
检测流程:我们通过自动化和人工审核,持续识别新的安全威胁,并及时更新防护措施。
我们深知,可能会有恶意用户试图滥用这项技术。因此,Operator 的设计初衷就是拒绝有害请求,并阻止访问违规内容。我们的审核系统会对违规行为发出警告,甚至会撤销用户的访问权限。此外,我们还增加了额外的审核流程,以检测和处理滥用问题。同时,我们也提供了关于如何按照我们的 使用政策 与 Operator 互动的指南。
尽管 Operator 在设计上考虑了以上安全措施,但没有系统是完美无缺的,这仍然是一个研究预览版。我们将通过真实的反馈和严格的测试,持续改进 Operator 的功能。要了解更多关于我们安全策略的信息,请访问 Operator 研究博客中的安全部分。
局限性
Operator 目前还处于早期的研究预览阶段。虽然它已经能够处理各种任务,但仍在不断学习和进化,因此可能会出现一些错误。例如,在处理创建幻灯片或管理日历等复杂界面时,它可能会遇到一些挑战。早期用户的反馈对于提高其准确性、可靠性和安全性至关重要,这将帮助我们不断完善 Operator,使其更好地服务于每一位用户。
未来展望
API 中的 CUA:我们计划尽快在 API 中开放 Operator 的核心模型 CUA,以便开发者能够构建自己的计算机使用 AI 智能体 (AI Agent)。
增强功能:我们将持续改进 Operator 的能力,使其能够处理更长、更复杂的工作流程。
更广泛的访问:我们计划将 Operator(在新窗口中打开) 推广到 Plus、Team 和 Enterprise 用户。在确保其安全性和大规模可用性后,我们还会将其功能直接整合到 ChatGPT 中,从而实现流畅的实时和异步任务执行。
核心研究贡献者
Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo
核心团队
Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin
跨部门贡献者
Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes
领导者
Aaron Schlesinger (基础设施), Casey Chu (安全和模型准备), David Medina (研究基础设施), Hyeonwoo Noh (整体研究), Reiichiro Nakano (整体研究), Yash Kumar
贡献者
Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun
领导团队
Anna Makanju, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman