本文整理自 YouTube 视频《Box CEO on AI Agents & Why Enterprise Can’t Keep Up | a16z》,由有道龙虾总结和发布。
硅谷现在谈 AI,很容易把一切说得像已经解决了。
模型越来越强,agent 会用工具,会写代码,会操作电脑。于是很多人自然得出结论:企业里的知识工作很快会被自动化,SaaS 会被替代,工程师会变少,咨询公司和系统集成商也该退场。
但 Aaron Levie、Steven Sinofsky 和 Martin Casado 这场对话给了一个更贴近现实的版本:企业 AI 最大的阻碍,不是模型不会回答问题,而是系统太旧、权限太碎、数据太散、流程太复杂。
AI 可以让人更快地产生软件和信息,但它不会自动把一家运行了十年、几万人使用、堆满遗留系统的大公司变得清爽。
真正的企业 AI 落地,难在 integration。
硅谷和真实企业之间,有一道工作方式鸿沟
Aaron Levie 说,他现在的工作有点像“把现实带到硅谷,再把硅谷带回现实”。
这句话背后,是他在企业客户那里看到的巨大落差。
在硅谷,尤其是工程师群体里,人们使用 AI agent 的条件太好了:技术能力强,能读懂错误,能自己选工具,能调试环境,能接受新范式;更重要的是,代码任务天然适合模型,因为代码可验证,反馈循环清楚。
但企业里大多数知识工作不是这样。
普通员工技术门槛更低,数据分散在多个系统里,流程沉淀了多年,权限经常不清楚,历史系统很多,安全和合规要求也更重。你不能简单把 coding agent 的成功经验搬过去,然后期待财务、法务、客服、采购、人力都同样提速。
这不是政府和科技行业那种“互相听不懂”的差异,而是工作流和技术环境本身就不同。
所以 AI 从硅谷扩散到整个知识工作世界,会需要几年时间。不是因为模型不够酷,而是因为企业要把旧系统、旧流程、旧权限和新 agent 接起来。
“95% 企业 AI 项目失败”这类说法,问题出在定义
Martin Casado 提到,类似 MIT “95% 大公司 AI 项目失败”的统计,其实很容易误导。
如果说大公司里没人有效使用 AI,那显然不对。很多员工已经在用 ChatGPT、Claude、Copilot 这类工具提高个人效率。
真正失败的,往往是另一类项目:董事会对 CEO 说“我们需要更多 AI”;CEO 找咨询公司做一个中心化 AI 项目;项目没有真正和运营流程对齐,也没人理解它如何嵌入日常工作,最后自然失败。
问题不是 AI 作为个人工具没用,而是组织还不知道如何把它变成可靠的制度化能力。
大公司决策通常是中心化的,而 AI 扩散常常从个人开始。一个个员工先用起来,但公司层面的治理、数据、合规、运营流程还没跟上。这就造成了一个很尴尬的中间状态:趋势在个人层面扩散得很好,在组织层面却推进得很慢。
更麻烦的是,早期失败会留下伤痕。董事会推动 AI,管理层上项目,项目失败,组织内部就会产生怀疑。下一轮真正靠谱的 AI 落地,反而要先跨过上一轮失败带来的心理障碍。
AI 变化太快,反而让企业架构团队更难下注
Aaron 提到一个有趣但真实的现象:AI 技术演进太快,会导致企业架构团队犹豫。
过去,一个工程项目可能因为语言选择、架构路线、技术栈争论而拖几个月。现在 AI 领域变化更快:模型公司互相追赶,agent harness 形态也还没稳定。
Agent 应该跑在电脑里,还是云里?应该有自己的工具层,还是操作现有界面?应该托管给模型公司,还是企业自己控制?应该通过 API、MCP、CLI,还是浏览器?
这些不是完全可替换的选择。企业一旦选错路,可能几年后发现整套方案都过时。
所以 CIO 和 AI 团队经常处在“我们还在比较两三种范式”的状态。不是他们不想行动,而是他们知道企业系统一旦接上去,就不是一个周末能重写的玩具。
硅谷创业者常常低估这种谨慎。因为很多人职业经历是几个两年创业公司 stint,没经历过一个应付账款系统要用 40 年的现实。
AI 产品集成正在经历一次范式切换:AI 不是功能,而是用户
Martin 提到一个正在产品公司里发生的变化。
几个月前,很多软件公司理解“集成 AI”的方式,是把 AI 做进产品里:加一个聊天框、加一个自动总结、加一个 AI 按钮。这是一种 AI 和软件融合的 hybrid model。
但现在,另一种思路开始出现:不要把 AI 当成软件功能,而要把 AI 当成用户。
也就是说,你的产品不一定要塞进一个 AI 聊天框,而是要让 agent 能够使用你的产品。把产品做成 CLI、API、MCP,或者某种 agent-friendly interface,让 Claude Code、OpenClaw、Codex 这类 agent 可以调用它。
这是一种很大的架构和心智转变。
过去你在为人类设计界面,现在你还要为机器用户设计界面。软件公司需要思考:我的产品能不能被 agent 理解?能不能被 agent 安全调用?能不能暴露足够清楚的动作和结果?
这也解释了为什么很多企业软件会转向 headless。不是因为人类界面不重要,而是机器用户会成为新的大规模使用者。
但 agent 不会神奇解决集成:企业本身就是一团待集成的东西
Steven Sinofsky 把问题说得更直白:
任何超过 1000 人,或者超过 10 年历史的企业,本质上都是一大堆等待集成的东西。
Agent 不会让这些东西自动集成。
大公司里,数据在 Box、Salesforce、SAP、Workday、Slack、SharePoint、内部数据库、旧系统、邮件、文档里分散着。很多信息没有统一源头,很多权限是历史沉淀,很多流程靠人知道“该去问谁”。
人类员工遇到系统墙,会绕路:找 Sally 要文档,问 Bob 某个数据系统里的数字,打电话给另一个部门,找经理升级权限。
Agent 如果只有和你一样的权限,它也会撞墙。它不一定知道该找 Sally,也不一定知道 Bob 才是某个数字的事实来源。
这会带来两个结果:
- 很多 agent 拿不到正确数据,任务做不完;
- 如果为了让 agent 做完任务而给它过多权限,又会立刻制造安全风险。
所以企业 AI 落地的真实工作,是升级系统、整理数据、明确权限、建立上下文、把 agent 接到正确的事实来源上。
这不是一个模型提示词能解决的问题。
为什么 OpenAI 找 Accenture、Deloitte 合作,一点也不奇怪
Aaron 特别提到,OpenAI 和 Accenture、Deloitte 等系统集成商合作时,网上有些人觉得讽刺:不是说 agent 会自动化人吗?为什么还需要人来实施 agent?
但在 Aaron 看来,这几乎是最显然不过的合作。
大企业想让 agent 真正工作,需要 change management、系统实施、数据整合、权限设计、流程重构。你要先做大量人的工作,agent 才能安全地自动化一部分人的工作。
这听起来绕,但企业软件一直如此。
每一轮新技术进入大公司,都不是“买了就用”。互联网、云、移动、SaaS 都需要迁移、培训、治理、系统重构。AI 只是更强,也更复杂。
所以未来几十年,围绕 AI 落地的实施、集成、治理、流程改造会是巨大市场。新一代服务公司会出现,传统系统集成商如果能跟上,也会获得新机会。
先读信息,再执行动作:企业 agent 的两条路径
Steven 给创业公司提了一个很实用的切分:企业 agent 要分清自己是 获取信息,还是 执行动作。
这两件事的风险完全不同。
第一类 agent 是 seeking information:帮你从公司系统里查东西、汇总信息、解释文档、跨文件搜索、生成分析。这更容易先落地,因为它主要是读。
第二类 agent 是 doing:改数据、发邮件、提交订单、批准付款、修改客户记录、执行系统动作。这类任务涉及权限、审计、错误成本和安全边界,难度高得多。
互联网早期也是先从信息访问开始变得有价值。网站把企业内部信息暴露给人,搜索和门户让人看到库存、费用、部门数据、文档状态。后来才慢慢进入交易和流程执行。
企业 AI 很可能也会走类似路径。
先让 AI 成为更好的企业搜索和信息综合层。尤其是在 Box 这样的文件系统里,AI 可能是企业内部搜索第一次真正产生即时价值的机会。等信息整合做好,再逐步加入 approve、reject、draft、submit 这类动作。
这比一上来就让 AI 接管最复杂的流程现实得多。
Agent 更像人,还是更像软件?这会决定企业架构
Martin 提出一个重要观点:我们不一定应该把 agent 当成传统软件来集成,而可以把它当成一种“人类用户”。
LLM 是非确定性的,能处理长尾复杂性,有一定智能。这些特征更像人,而不是传统软件服务。企业过去几十年已经围绕“混乱的人类”建立了接口、流程和权限:员工入职、邮箱账号、文档权限、系统登录、审批流程、部门培训。
如果 agent 更像人,那也许它应该被“雇佣”:
- 有自己的身份;
- 有自己的邮箱;
- 能登录系统;
- 能请求权限;
- 能参加 onboarding;
- 能像员工一样通过现有流程完成任务。
Aaron 和 Steven 都认可这个方向,但也指出 agent 没有人类的一些隐性优势。人类知道组织关系,知道该问谁,知道某个流程背后的潜规则。Agent 则需要被教,需要组织显式化更多上下文。
这就引出了一个很有意思的概念:agent onboarding。
未来 agent 可能真的需要入职培训。CEO 给它讲文化,各部门介绍自己做什么,系统告诉它权限边界,流程告诉它遇到问题该找谁。
这听起来像笑话,但很可能是企业 AI 的现实方向。因为我们已经为人类设计了一整套协作世界,而 agent 正在进入这个世界。
Humanoid robot 和企业 agent 的共同点:世界本来就是给人设计的
对话里用了一个机器人比喻。
有些人认为 humanoid robot 会是最好的机器人形态,因为现实世界是为人类身体设计的:门把手、电梯按钮、楼梯、工具、厨房、仓库,全都围绕人的尺寸和动作。
企业软件世界也类似。它不是为 API-first 的完美自动化系统设计的,而是为人类员工设计的。
Martin 说,OpenClaw 使用 Mac mini 的一个原因是 iMessage,没有 headless 版本。很多网站对 headless browser 有反爬机制,用真实 Safari 反而更可行。也就是说,今天很多 agent 不是通过理想 API 工作,而是在使用真实应用界面。
Aaron 则更偏向 API 和 headless。他认为,只要软件有良好 API,agent 一定更愿意用 API,因为效率更高、结构更清楚。比如查 Salesforce 记录、搜 Box 文件,用 API 比点击一百次界面更合理。
这两种观点其实都成立,只是时间尺度不同。
短期内,agent 会大量使用人类界面,因为现成、训练数据多、权限路径和反爬机制更兼容。长期看,软件公司会暴露更好的 API、MCP、CLI 和 agent-native 接口,因为机器用户需要更高吞吐和更结构化的能力。
最后很可能是混合架构:有 API 就用 API,没有 API 就打开浏览器或远程桌面像人一样操作。
Headless SaaS 不是 SaaS 末日,反而可能是新增长点
Salesforce 最近强调 headless,被三人视为一个重要信号。
如果 Salesforce 这样的企业软件平台开始认真支持 agent 在后台调用,那么很多 SaaS 公司都要重新思考商业模式:agent 是不是一个新 seat?怎么收费?按 API 调用、按任务、按代理身份,还是按某种使用量?
Steven 的判断很明确:agent 必须有身份,本质上就是另一种 license。
因为它不能简单借用某个人类用户的凭证。那样不仅安全上很糟糕,也无法审计。一个 agent 查了什么、改了什么、代表谁、拥有什么权限,都必须清楚。
这反而让“SaaS apocalypse”显得更不靠谱。
如果每个人类员工未来都有多个 agent 帮他查资料、跑流程、生成报告、同步数据,那企业软件的使用量可能不是下降,而是上升。SaaS 不会因为 agent 消失,而会因为多了一类机器用户产生新的计费和架构需求。
当然,agent seat 可能和 human seat 不同。早期可能只读、绑定人类、便宜一些。但它仍然需要身份、权限、审计和服务能力。
Agent 会把 SaaS 系统打爆吗?很可能会,除非系统升级
一个非常现实的问题是:如果今天 1 万个员工使用一个 SaaS 系统,明天又多了 1 万个 agent,而且每个 agent 的访问频率是人类的 500 倍,这个系统扛得住吗?
Steven 认为,很多系统第一反应会崩。
过去 BI 工具刚出现时,也发生过类似事情。BI 系统想每天晚上抽取 ERP 数据,重新做切片分析,但 ERP 原本不是为这种查询模式设计的。结果很多 ERP 厂商不得不重新建设数据访问能力。
Agent 也会带来类似压力。
人类搜索一次,慢慢看结果。Agent 可以 fan out,开几百个查询,并行遍历大量文件,自己 rerank。Box 的 agent 搜索就是例子:它不会像人一样只输入一个 query、看一页结果,而是能多路搜索、扫过几百个结果、再重排。
这会迫使 SaaS 公司升级架构:缓存、索引、权限过滤、速率限制、审计、API 设计、后台任务系统都要重做。
Martin 的态度更激进:这些都是标准计算机科学问题,该缓存就缓存,该重构就重构。如果系统扛不住,那说明系统本来就该升级。
但无论立场如何,结论一致:agent 时代不是“原系统不动,只多接一个模型”。大量底层系统需要改造。
AI 写代码越多,为什么可能越需要工程师
访谈开头有一句很反直觉的话:
代码写得越多,我们越不可能需要更少工程师。
原因很简单:更多代码意味着更多系统复杂性。
AI 让软件生产更便宜,组织就会生产更多软件。John Deere 会写更多智能农业算法,Caterpillar 会写更多自动化系统,Eli Lilly 会写更多药物研发相关软件。不是只有 Google、Meta、创业公司需要工程师,传统行业也会开始大规模软件化。
但软件越多,系统越复杂。复杂系统会带来升级、宕机、兼容、安全事件、权限、监控、性能、架构债务。AI 能帮你写 80% 到 90% 的功能,但最后能不能安全上线,还要看安全审查、代码审查、生产管道和系统治理。
Aaron 举了 Box 的例子。他们有一个新功能,AI 可能写了 80% 到 90%,但真正拖慢发布的,是完整安全审查。因为不能让新功能带来代码注入等风险。
所以 AI 对工程团队的提升不是简单 10 倍。Aaron 更倾向于说,现实中可能是 2 到 3 倍,而且会被评审、验证、安全、发布流程这些环节限制。
这并不悲观。2 到 3 倍已经巨大。但它和“工程师没用了”不是一回事。
AI 编码的隐患:你可能同时创造了解决方案和新问题
Martin 提到,AI 编码有一个还没被充分解决的问题:代码会随着 AI 使用变得越来越差。
这不是说 AI 写的每段代码都差,而是说当你不断让 agent 修改系统,它可能在解决问题的同时引入同样多的新问题。熵在增加。
很多团队已经感受到:AI 让你感觉非常 productive,但几天后回头看,系统是否仍然干净?架构是否更清楚?测试是否覆盖?安全边界是否更稳定?没人敢完全确定。
这也是大公司谨慎的原因。
大公司每天都像在防止轮子飞掉。它们靠约束、流程、权限、审查、审批、测试来防止系统崩溃。硅谷里那种一次性 vibe coding、one-shotting 的人,很多没经历过这种环境,才会觉得“能跑就行”。
在真正规模化组织里,约束不是官僚主义本身,而是系统不崩的条件。
AI 会让人失业吗?历史更像“工作变复杂,岗位变多”
三人对“AI 消灭工作”的看法都比较怀疑。
Steven 拿出一本 90 年代的书《The End of Work》。这本书在互联网爆发前几个月出版,认为技术革命生产率提升失败,接下来会没有工作。历史结果显然不是这样。
类似的预测在计算机刚进入企业时也出现过。人们以为电脑会消灭会计,因为会计不用再手工加数字了。结果电脑让会计能做更多、更复杂、更全面的分析,会计行业并没有消失。
律师也是类似。过去律师甚至不自己打字,有法律助理负责输入。后来电脑、数据库、Track Changes、在线检索全部进入法律行业,律师没有消失,反而变成了“电脑化律师”。今天你很难想象一个不用文档协作和在线检索的律师。
AI 也可能走类似路径。
它会自动化内容生产、信息检索、异常发现、初稿生成,但这些信息还要被人理解、判断、应用到真实世界里。公司的本质是基于信息采取行动。如果 AI 让有价值信息变多,组织反而需要更多人消费、解释、决策和执行。
Aaron 对就业反而很乐观。他认为人类还会在更高抽象层进入循环:发起任务,审查过程,吸收结果,处理异常,负责现实世界价值产出。
账户审计、法律和客服:AI 更像“扩大可见性”,不是立刻接管
Aaron 用会计审计举例。
AI 很适合帮会计团队梳理大量数据、发现异常、提示可能需要深入检查的地方。这是增量价值,因为它提供了过去很难获得的可见性。
但如果是最终确认每个数字都准确、承担审计责任,现在仍然需要人类。
法律也是。你可以问 AI 一个复杂法律问题,得到初步分析。但这很可能增加你打电话给律师的概率,而不是减少。因为你现在更知道该问什么,也更意识到问题复杂在哪里。
这就是很多知识工作的真实形态。它们不只是“在 Word 里打字”。律师在做策略判断,会计在做责任确认,客服在处理情绪和例外,管理者在把信息嵌入组织行动。
AI 可以帮忙生成和分析,但它还必须进入现实世界的价值链。
对创业公司的启发:别只卖 AI,卖“能进企业系统的 AI”
这场对话给创业者的启发很清楚。
第一,不要低估企业集成。
如果你的产品只在干净 demo 环境里好用,一进入真实企业就拿不到数据、碰到权限墙、绕不过旧系统,那它很难成为企业级产品。
第二,先从信息获取类场景切入。
企业搜索、跨文档问答、客户情报、会议前准备、异常发现、知识整合,这些读场景风险更低,也更容易立刻体现价值。
第三,认真设计 agent 身份和权限。
Agent 不是一个透明脚本。它需要身份、审计、范围、权限继承、授权请求和责任边界。
第四,准备好帮助客户做系统升级。
企业 AI 落地不是“给你一个模型 key”就完事。你可能要帮助客户整理数据、接入系统、调整流程、改造 API、建设索引、补齐权限。
第五,不要相信 SaaS 会简单消失。
企业仍然需要维护、可靠性、安全、合规、长期产品演进。Agent 反而可能让 SaaS 产生更多机器用户和更多后台调用。
结尾:企业 AI 的下一阶段,是把魔法接进现实
这场对话的价值在于,它给 AI 热潮补上了一层现实感。
AI 很强,agent 也真的在变强。工程师能用它写代码,员工能用它查资料,企业也会用它重塑流程。
但企业不是干净的 demo 环境。
企业是十年系统、二十年流程、三十年组织习惯、无数权限例外、历史数据、旧软件、合规要求和人际网络堆出来的复杂体。Agent 进入这里,不是挥一下魔杖就完成自动化,而是要被接入、被限制、被培训、被审计、被升级。
所以未来几年,最重要的企业 AI 公司,未必是喊“我们有最聪明模型”的公司,而是能回答这些问题的公司:
你的 agent 怎么拿到正确数据?
它有什么身份?
它能访问什么,不能访问什么?
它撞墙时怎么办?
它改了东西怎么审计?
它生成的代码和流程如何验证?
它让系统调用量暴涨 500 倍时,底层架构扛得住吗?
AI 的魔法已经出现了。接下来最难、也最值钱的工作,是把魔法接进现实世界里那堆复杂系统。