本文来自于 RAG 技术的开创者 Douwe Kiela 在 2025 AI 工程师峰会上的演讲:RAG 代理在生产环境中的应用:我们学到的 10 个经验教训。Douwe Kiela 是 Contextual AI 的首席执行官兼联合创始人。 他还在斯坦福大学担任副教授。 之前,他曾担任 Hugging Face 的研究主管以及 Meta 的基础 AI 研究 (FAIR) 团队的研究负责人,在那里他率先推出了检索增强生成 (RAG) 等其他关键的 AI 突破。 他在多模态、对齐和评估方面的研究为 AI 领域树立了新的标准,并使系统更安全、更可靠和更准确。
生成式AI的浪潮正以前所未有的力量席卷全球,麦肯锡预测它将为全球经济带来高达4.4万亿美元的增值。这是一个巨大的机遇,但现实却有些骨感:只有四分之一的企业真正从AI投资中获得了价值。
为什么会这样?一边是无限的潜能,另一边却是普遍的挫败感。Contextual AI的CEO、同时也是RAG(Retrieval-Augmented Generation)技术的开创者Douwe Kiela认为,我们正面临一个**“上下文悖论” (Context Paradox)**。
上下文悖论:AI时代的新挑战
你可能听说过机器人领域的“莫拉维克悖论”(Moravec’s Paradox):对人类来说困难的事情(如下棋),对计算机来说轻而易举;而对人类来说简单的事情(如打扫房间),对机器人来说却难如登天。
如今,在企业AI领域,类似的悖论正在上演。大型语言模型(LLM)能写出比多数人类更优秀的代码,能解决复杂的数学问题,但在一个对人类来说几乎是本能的领域——理解和运用上下文——却步履维艰。
人类专家可以轻而易举地利用多年的经验和直觉,将信息置于正确的场景中进行判断。而这,正是当前AI的短板,也是决定AI能否创造真正商业价值的关键。
企业AI的价值路径,是从提供“便利性”的通用助手,走向创造“差异化价值”的业务转型。你走得越远,对上下文处理能力的要求就越高。
那么,如何跨越这道鸿沟?Douwe Kiela结合他创办Contextual AI两年来,将RAG智能体 (RAG Agents) 推向生产环境的经验,分享了10条宝贵的实战教训。
1. 破除模型迷思:系统 > 模型
当一个新的、更强大的语言模型发布时,整个行业都会为之沸腾。人们的注意力往往只集中在模型本身,却忽略了一个事实:在企业应用中,LLM通常只占整个系统的20%。
真正解决问题的是一个完整的系统,而RAG是这个系统的核心组件。一个性能平平的模型,搭配一套卓越的RAG系统,其效果远胜于一个顶尖模型配上一套糟糕的RAG系统。
核心教训: 不要只盯着模型,要建立系统性思维。解决商业问题的,是系统,而非孤立的模型。
2. 别做万金油:专业化胜过通用人工智能 (AGI)
通用人工智能(AGI)的愿景固然激动人心,但在解决具体的企业问题时,专业化才是王道。
企业的核心竞争力在于其日积月累的专业知识和行业洞见。通用模型很难企及内部专家的水平。与其追求一个“什么都懂一点”的通用模型,不如针对特定领域和用例进行深度优化和专业化训练。这样才能真正把企业的“专家知识”这个燃料库点燃。
核心教训: 聚焦专业化,让AI成为你所在领域的专家,而不是一个泛泛的通才。
3. 数据就是护城河:拥抱规模与噪音
一家公司的本质是什么?是员工吗?不完全是,员工会流动。从长远看,公司的本质是其独有的数据。这些数据,构成了企业最坚实的护城河。
很多企业在引入AI时,总想着要先花大量精力去清洗、整理数据。但现实是,企业数据天生就是海量、复杂且充满“噪音”的。真正的挑战和机遇,在于让AI有能力直接在这些大规模的、嘈杂的真实数据上工作。如果你能做到这一点,你就拥有了别人无法复制的差异化优势。
核心教训: 不要畏惧数据的复杂性。让AI适应你的数据,而不是让你的数据去迎合AI。
4. Demo陷阱:从第一天起,就为生产环境设计
用开源框架搭一个RAG Demo非常容易,给10个友好用户测试,他们会告诉你“太棒了!”。然后,CEO可能会说:“太好了,我们三个月内用它替换掉一半的客服团队!”
这时,噩梦才真正开始。
将一个能在少量文档上运行的试点(Pilot),扩展到处理数万、数百万份文档,服务成千上万名用户,并满足企业级的安全与合规要求,其难度是指数级增长的。
核心教训: 别为Demo设计,要为生产环境设计。从项目第一天起,就要思考规模化、稳定性和安全性的问题。
5. 速度为王:快速迭代,拒绝“完美”
在AI应用落地的过程中,速度远比完美更重要。
不要试图在内部闭门造车,打造一个“完美”的产品。你应该尽快将一个功能可用的版本交到真实用户手中,获取他们的反馈。即便是真实、甚至尖锐的批评,也比测试人员友好的赞美更有价值。通过快速迭代,不断进行“爬山优化”(hill climb),你才能最终抵达一个足够好的状态。
核心教训: 拥抱迭代。早日发布,早日获得反馈,是通往成功的唯一捷径。
6. 解放工程师:让他们专注业务价值,而非“切块”
你的工程师是不是正在为一些非常“无聊”的事情耗费心神?比如:
- “这个场景下,最佳的文本切块(Chunking)策略是什么?”
- “我应该怎么写这个Prompt才能效果最好?”
这些技术细节固然重要,但它们不应该成为工程师的主要工作。理想情况下,这些底层任务应该被优秀的平台抽象掉。你最宝贵的工程资源,应该专注于思考如何为业务创造差异化价值,如何在竞争中胜出。
核心教训: 让工程师做有创造力的事情,把繁琐的底层技术难题交给成熟的平台。
7. “没人用”的AI不是好AI:深度融入工作流
我们经常看到这样的情况:一家公司宣布他们的生成式AI系统成功上线生产环境。但当你追问有多少人在用时,答案常常是“零”。
这可能是因为 система 为了通过内部风险审核而被层层设限,变得几乎不可用;也可能是因为它与用户现有的工作方式格格不入。一个无法被消费的AI,没有任何价值。
核心教训: AI的成功不仅在于技术实现,更在于使用体验。将AI无缝地集成到用户已有的工作流程中,是提升采用率的关键。
8. 创造“哇”时刻:让用户为你代言
如何让AI应用变得“有粘性”?关键在于尽快让用户体验到那个“哇!”(Wow)的时刻。
高通(Qualcomm)的一个案例非常经典。他们的一位客户工程师在使用我们的系统时,意外发现了一份被遗忘了七年之久的旧文档。这份文档恰好解答了他长期以来的困惑。在那一刻,他体验到了前所未有的震撼。从那以后,他成了这个系统最热情的推广者。
核心教训: 设计你的用户引导流程,让用户能以最快的速度发现AI的惊人之处。这些小小的“胜利”,是推动AI在企业内部普及的最佳催化剂。
9. 重新定义“准确”:关注那5%的“不准确”
作为AI从业者,我们都明白100%的准确率几乎是不可能的。追求95%的准确率已经非常了不起。但对于企业而言,他们更关心的是:那剩下的5%会怎么样?
当AI出错时,我们该如何应对?因此,问题不再仅仅是“准确性”(Accuracy),而是如何管理“不准确性”(Inaccuracy)。
这就要求我们必须具备:
- 可观测性 (Observability): 清晰地评估系统表现。
- 可审计性 (Audit Trails): 尤其在受监管行业,必须能追溯每一次决策的依据。
- 可归因性 (Attribution): RAG系统必须能明确指出“答案来自哪篇文档的哪一段”,用证据支撑其生成的内容。
核心教训: 准确率是基础门槛,但建立信任的关键在于如何透明、负责地处理那部分不可避免的“不准确”。
10. 拒绝“小打小闹”:敢于“登月”,创造真正的影响
我们看到很多AI项目失败,不是因为目标定得太高,而是因为定得太低了。
如果你的生成式AI项目只是用来回答“公司401k养老金的供应商是谁?”或者“我还有几天年假?”,那它带来的ROI微乎其微,最终只会沦为一个没人用的噱头。
我们正处在一个堪比“登月时代”的特殊时期,AI将从根本上改变社会。作为这个时代的参与者,你的目标不应该是摘那些低垂的果实。
核心教训: 保持雄心。瞄准那些一旦解决,就能带来巨大商业回报的核心问题。敢于挑战,敢于“登月”,这才是AI时代应有的姿态。
“上下文悖论”不会消失,但通过理解这10条来自一线的教训,你完全可以将挑战转化为机遇。建立系统思维,拥抱专业化,并始终保持雄心,你就能在AI浪潮中成功驾驭自己的航船,创造出真正的价值。