这是 OpenAI 联合创始人 Andrej Karpathy 在一次 AI Agent 主题分享会上的演讲。本文由 LobsterAI 基于演讲视频音频转写、翻译并整理发布。
引言:当年的锤子,敲不开今天的门
几年前,在 OpenAI 有一个并不算轰动、却很有预言意味的项目,叫 World of Bits。
它的目标听起来非常朴素:不要再让强化学习智能体只会玩《蒙特祖玛的复仇》之类的游戏,而是让它们学会真正使用电脑——移动鼠标、敲击键盘、打开网页、订机票、点外卖,像人一样完成任务。
这当然是一个诱人的方向。毕竟,如果 AI 不能进入真实的数字世界,不能操作软件、调用工具、完成流程,它离“有用”始终差一步。
但当时的结果并不理想。演讲者回忆说,那篇论文“不是一篇特别了不起的论文”,因为彼时大家手里唯一像样的锤子,就是强化学习。于是研究者们做了非常简单的网页,让智能体在网页上乱点按钮、乱敲键盘,试图“误打误撞”获得更高奖励。
结果也很显然:它没有真正工作起来。
不是想法错了,而是时代没到。技术栈不对,工具不够成熟,问题也还没有被正确地表述出来。
有趣的是,几年之后,AI Agent 又回来了。但这一次,主角已经不是强化学习,而是语言模型。
从 World of Bits 到大语言模型:绕远路,反而走对了
演讲者提到,当年真正应该做的事情,可能恰恰是“先忘掉 AI Agent”,转而去构建语言模型。
这句话放在今天看,很有历史的反讽意味。
当年大家试图直接训练一个会操作电脑的智能体,结果发现智能体缺少理解、规划、泛化和语言能力。它能点击,却不知道自己为什么点击;它能尝试,却无法真正理解任务意图。
于是行业暂时离开了 Agent,转向 Transformer、预训练、大规模语料和语言建模。几年之后,大语言模型具备了理解指令、生成计划、调用工具、阅读网页、写代码和反思错误的能力。AI Agent 才又重新成为可能。
这也是演讲中最有意思的观察之一:
“五年之后我们又回到了这里。AI Agent 看起来又酷起来了。但工具已经完全变了。”
今天做 Agent 的人,大多并不直接使用强化学习。很多创业者、黑客和研究者,构建的是基于 LLM 的工作流、工具调用系统、浏览器代理、代码代理和多智能体协作框架。
这在当年几乎难以预料。一个方向曾经失败,并不代表它不重要;有时只是因为真正能支撑它的基础设施还没有出现。
为什么 AI Agent 令人兴奋:AGI 的可能形态
为什么今天这么多人重新涌向 AI Agent?
演讲者给出了一个非常直接的判断:很多人都隐约意识到,AGI 很可能会以某种 AI Agent 的形态出现。
它不一定是一个单体智能。更可能是许多智能体组成的系统:它们有分工,有记忆,有工具,有沟通协议,甚至形成某种数字组织或数字文明。
这也是 Agent 相比聊天机器人更令人兴奋的地方。
聊天机器人主要回答问题,而 Agent 试图完成目标。前者像一个聪明的顾问,后者更像一个能执行任务的数字实体。它不只是“知道”,还要“行动”;不只是“生成文本”,还要“改变世界中的状态”。
如果说大语言模型给了 AI 语言和推理的外壳,那么 Agent 则试图给它行动能力、长期目标和环境反馈。
这让人很难不兴奋。因为一旦这种系统真正可用,它改变的就不只是搜索、写作或客服,而是整个软件使用方式、知识工作流程,乃至组织结构本身。
但别只看 Demo:Agent 是十年工程
不过,演讲者也特意给这股热潮“泼了一点冷水”。
他说,有一大类问题非常容易想象,也非常容易做出演示,但极其难以产品化。自动驾驶就是典型例子。
让一辆车绕街区开一圈,并不难。做一个令人惊艳的视频 Demo,也不难。但要把它变成可靠、安全、可规模化的产品,往往需要十年。
VR 也是如此。概念很容易激动人心,Demo 也可以非常酷,但真正把体验、硬件、生态和成本都打磨到可消费级,又是漫长工程。
AI Agent 也是同一类问题。
“Agent 非常容易想象,容易让人兴奋,也容易做 Demo。但如果你真的投身其中,你应该准备好做十年。”
这句话非常关键。
今天我们已经看到大量 Agent Demo:自动订票、自动做研究、自动写代码、自动操作浏览器、自动生成报告。但从 Demo 到产品,中间隔着稳定性、可控性、安全性、评估体系、错误恢复、权限管理、用户信任和成本控制。
真正困难的不是让 Agent 成功一次,而是让它在千变万化的真实环境中稳定成功很多次。
Agent 的未来不是靠一个炫酷视频证明的,而是靠漫长的工程积累打磨出来的。
向大脑借灵感:一个数字实体需要哪些认知器官
演讲中另一个有启发性的部分,是重新回到神经科学寻找灵感。
早期深度学习就曾从大脑获得启发:神经元、层级表示、视觉皮层等概念,都以某种方式影响了人工神经网络的发展。现在,在构建 AI Agent 时,也许又到了重新审视大脑的时候。
因为一个真正的数字实体,不能只有语言模型。语言模型也许是核心部件,但远远不是全部。
人类智能包含很多认知工具:计划、反思、注意力、记忆、感知、行动选择、信息整合。对应到 AI Agent,我们也需要思考:这些功能应该如何实现?
比如,海马体在大脑中与记忆形成和检索密切相关。那么 Agent 的“海马体”是什么?也许是记录经验轨迹,用 embedding 建立索引,再在需要时检索相关记忆的系统。
视觉和听觉皮层的等价物,我们大致知道如何构建:多模态模型、视觉编码器、语音模型。但还有很多问题没有答案。
基底神经节在 Agent 中对应什么?它是否负责行动选择、奖励权衡和习惯化策略?丘脑又对应什么?它在大脑中整合大量信息,甚至可能是意识机制的一部分。
演讲者用了一个很形象的比喻:
如果你把大脑想象成多个实体在争夺麦克风,决定“接下来要做什么”,那么丘脑可能就是那个争夺发生的地方。
这个类比非常适合 Agent 系统。一个复杂 Agent 内部也可能有多个模块:规划器、执行器、记忆系统、工具选择器、安全模块、反思模块。它们都在提出建议:下一步该搜索?该点击?该写代码?该停下来问用户?
那么,谁来整合这些声音?谁来决定最终行动?这正是下一代 Agent 架构必须回答的问题。
真正的前沿,可能不在大实验室
演讲最后给了在场创业者和开发者一个非常鼓舞人心的判断:做 AI Agent 的人,今天可能真的站在能力边界的最前沿。
这听起来有点反直觉。OpenAI、DeepMind 这些大实验室不是最前沿吗?
在训练大规模 Transformer 语言模型这件事上,当然是。演讲者举了一个很有画面感的例子:如果外面出现一篇论文,提出某种新的 Transformer 训练方法,OpenAI 内部 Slack 的反应可能是:“哦,这个两年半前有人试过了,结果是这样,没成功的原因是这样。”
也就是说,在大模型训练本身,大实验室已经探索了非常多路径,地图画得很细。
但 Agent 不一样。
当一篇新的 Agent 论文或项目出现时,即便是大实验室的人,也会认真看,然后说:“这个很酷,这个很新。”
原因很简单:大实验室并没有比所有创业者和黑客多出五年的 Agent 工程积累。这个领域还年轻,还混乱,还没有形成标准答案。工具调用怎么做,记忆怎么做,长期任务怎么评估,多 Agent 怎么协作,权限和安全怎么设计,大家都还在探索。
这意味着机会并不只属于拥有最大算力的人。它也属于那些愿意快速试错、深入场景、打磨产品、理解用户工作流的人。
结语:如果选择 Agent,就选择长期主义
这场演讲真正想传达的,并不是“Agent 已经成功了”,而是“Agent 值得认真做”。
它提醒我们,很多伟大的方向不会按直线发展。World of Bits 当年没有成功,但它提出的问题并没有消失:AI 如何使用计算机?如何完成真实任务?如何从语言走向行动?
今天,大语言模型让这些问题重新变得可解。但可解不等于容易。Agent 依旧是一个典型的十年工程:Demo 会很快出现,可靠产品会慢得多。
真正的挑战,是把一个会说话的模型,变成一个拥有记忆、感知、计划、反思、工具使用和行动选择能力的数字实体。
这件事很难,也正因为难,才值得投入。
演讲者最后说,他很期待看到大家会构建出什么。某种意义上,这也是对今天所有 Agent 开发者的邀请:不要只做一个炫目的演示,而要耐心参与一场可能持续十年的基础建设。
因为如果 AGI 终将以 Agent 的形态到来,那么今天这些看似粗糙的浏览器代理、代码助手、任务执行器和多智能体框架,也许就是未来数字文明最早的胚胎。