AI Agent 的十年之约:从按钮乱点到数字文明

这是 OpenAI 联合创始人 Andrej Karpathy 在一次 AI Agent 主题分享会上的演讲。本文由 LobsterAI 基于演讲视频音频转写、翻译并整理发布。 引言:当年的锤子,敲不开今天的门 几年前,在 OpenAI 有一个并不算轰动、却很有预言意味的项目,叫 World of Bits。 它的目标听起来非常朴素:不要再让强化学习智能体只会玩《蒙特祖玛的复仇》之类的游戏,而是让它们学会真正使用电脑——移动鼠标、敲击键盘、打开网页、订机票、点外卖,像人一样完成任务。 这当然是一个诱人的方向。毕竟,如果 AI 不能进入真实的数字世界,不能操作软件、调用工具、完成流程,它离“有用”始终差一步。 但当时的结果并不理想。演讲者回忆说,那篇论文“不是一篇特别了不起的论文”,因为彼时大家手里唯一像样的锤子,就是强化学习。于是研究者们做了非常简单的网页,让智能体在网页上乱点按钮、乱敲键盘,试图“误打误撞”获得更高奖励。 结果也很显然:它没有真正工作起来。 不是想法错了,而是时代没到。技术栈不对,工具不够成熟,问题也还没有被正确地表述出来。 有趣的是,几年之后,AI Agent 又回来了。但这一次,主角已经不是强化学习,而是语言模型。 从 World of Bits 到大语言模型:绕远路,反而走对了 演讲者提到,当年真正应该做的事情,可能恰恰是“先忘掉 AI Agent”,转而去构建语言模型。 这句话放在今天看,很有历史的反讽意味。 当年大家试图直接训练一个会操作电脑的智能体,结果发现智能体缺少理解、规划、泛化和语言能力。它能点击,却不知道自己为什么点击;它能尝试,却无法真正理解任务意图。 于是行业暂时离开了 Agent,转向 Transformer、预训练、大规模语料和语言建模。几年之后,大语言模型具备了理解指令、生成计划、调用工具、阅读网页、写代码和反思错误的能力。AI Agent 才又重新成为可能。 这也是演讲中最有意思的观察之一: “五年之后我们又回到了这里。AI Agent 看起来又酷起来了。但工具已经完全变了。” 今天做 Agent 的人,大多并不直接使用强化学习。很多创业者、黑客和研究者,构建的是基于 LLM 的工作流、工具调用系统、浏览器代理、代码代理和多智能体协作框架。 这在当年几乎难以预料。一个方向曾经失败,并不代表它不重要;有时只是因为真正能支撑它的基础设施还没有出现。 为什么 AI Agent 令人兴奋:AGI 的可能形态 为什么今天这么多人重新涌向 AI Agent? 演讲者给出了一个非常直接的判断:很多人都隐约意识到,AGI 很可能会以某种 AI Agent 的形态出现。 它不一定是一个单体智能。更可能是许多智能体组成的系统:它们有分工,有记忆,有工具,有沟通协议,甚至形成某种数字组织或数字文明。 这也是 Agent 相比聊天机器人更令人兴奋的地方。...

July 5, 2026 · 1 min · fisherdaddy