RAG 代理在生产环境中的应用：我们学到的 10 个经验教训 • Douwe Kiela

本文来自于 RAG 技术的开创者 Douwe Kiela 在 2025 AI 工程师峰会上的演讲：RAG 代理在生产环境中的应用：我们学到的 10 个经验教训。Douwe Kiela 是 Contextual AI 的首席执行官兼联合创始人。他还在斯坦福大学担任副教授。之前，他曾担任 Hugging Face 的研究主管以及 Meta 的基础 AI 研究 (FAIR) 团队的研究负责人，在那里他率先推出了检索增强生成 (RAG) 等其他关键的 AI 突破。他在多模态、对齐和评估方面的研究为 AI 领域树立了新的标准，并使系统更安全、更可靠和更准确。

生成式AI的浪潮正以前所未有的力量席卷全球，麦肯锡预测它将为全球经济带来高达4.4万亿美元的增值。这是一个巨大的机遇，但现实却有些骨感：只有四分之一的企业真正从AI投资中获得了价值。

为什么会这样？一边是无限的潜能，另一边却是普遍的挫败感。Contextual AI的CEO、同时也是RAG（Retrieval-Augmented Generation）技术的开创者Douwe Kiela认为，我们正面临一个**“上下文悖论” (Context Paradox)**。

上下文悖论：AI时代的新挑战

你可能听说过机器人领域的“莫拉维克悖论”（Moravec’s Paradox）：对人类来说困难的事情（如下棋），对计算机来说轻而易举；而对人类来说简单的事情（如打扫房间），对机器人来说却难如登天。

如今，在企业AI领域，类似的悖论正在上演。大型语言模型（LLM）能写出比多数人类更优秀的代码，能解决复杂的数学问题，但在一个对人类来说几乎是本能的领域——理解和运用上下文——却步履维艰。

人类专家可以轻而易举地利用多年的经验和直觉，将信息置于正确的场景中进行判断。而这，正是当前AI的短板，也是决定AI能否创造真正商业价值的关键。

企业AI的价值路径，是从提供“便利性”的通用助手，走向创造“差异化价值”的业务转型。你走得越远，对上下文处理能力的要求就越高。

那么，如何跨越这道鸿沟？Douwe Kiela结合他创办Contextual AI两年来，将RAG智能体 (RAG Agents) 推向生产环境的经验，分享了10条宝贵的实战教训。

1. 破除模型迷思：系统 > 模型

当一个新的、更强大的语言模型发布时，整个行业都会为之沸腾。人们的注意力往往只集中在模型本身，却忽略了一个事实：在企业应用中，LLM通常只占整个系统的20%。

真正解决问题的是一个完整的系统，而RAG是这个系统的核心组件。一个性能平平的模型，搭配一套卓越的RAG系统，其效果远胜于一个顶尖模型配上一套糟糕的RAG系统。

核心教训： 不要只盯着模型，要建立系统性思维。解决商业问题的，是系统，而非孤立的模型。

2. 别做万金油：专业化胜过通用人工智能 (AGI)

通用人工智能（AGI）的愿景固然激动人心，但在解决具体的企业问题时，专业化才是王道。

企业的核心竞争力在于其日积月累的专业知识和行业洞见。通用模型很难企及内部专家的水平。与其追求一个“什么都懂一点”的通用模型，不如针对特定领域和用例进行深度优化和专业化训练。这样才能真正把企业的“专家知识”这个燃料库点燃。

核心教训： 聚焦专业化，让AI成为你所在领域的专家，而不是一个泛泛的通才。

3. 数据就是护城河：拥抱规模与噪音

一家公司的本质是什么？是员工吗？不完全是，员工会流动。从长远看，公司的本质是其独有的数据。这些数据，构成了企业最坚实的护城河。

很多企业在引入AI时，总想着要先花大量精力去清洗、整理数据。但现实是，企业数据天生就是海量、复杂且充满“噪音”的。真正的挑战和机遇，在于让AI有能力直接在这些大规模的、嘈杂的真实数据上工作。如果你能做到这一点，你就拥有了别人无法复制的差异化优势。

核心教训： 不要畏惧数据的复杂性。让AI适应你的数据，而不是让你的数据去迎合AI。

4. Demo陷阱：从第一天起，就为生产环境设计

用开源框架搭一个RAG Demo非常容易，给10个友好用户测试，他们会告诉你“太棒了！”。然后，CEO可能会说：“太好了，我们三个月内用它替换掉一半的客服团队！”

这时，噩梦才真正开始。

将一个能在少量文档上运行的试点（Pilot），扩展到处理数万、数百万份文档，服务成千上万名用户，并满足企业级的安全与合规要求，其难度是指数级增长的。

核心教训： 别为Demo设计，要为生产环境设计。从项目第一天起，就要思考规模化、稳定性和安全性的问题。

5. 速度为王：快速迭代，拒绝“完美”

在AI应用落地的过程中，速度远比完美更重要。

不要试图在内部闭门造车，打造一个“完美”的产品。你应该尽快将一个功能可用的版本交到真实用户手中，获取他们的反馈。即便是真实、甚至尖锐的批评，也比测试人员友好的赞美更有价值。通过快速迭代，不断进行“爬山优化”（hill climb），你才能最终抵达一个足够好的状态。

核心教训： 拥抱迭代。早日发布，早日获得反馈，是通往成功的唯一捷径。

6. 解放工程师：让他们专注业务价值，而非“切块”

你的工程师是不是正在为一些非常“无聊”的事情耗费心神？比如：

“这个场景下，最佳的文本切块（Chunking）策略是什么？”
“我应该怎么写这个Prompt才能效果最好？”

这些技术细节固然重要，但它们不应该成为工程师的主要工作。理想情况下，这些底层任务应该被优秀的平台抽象掉。你最宝贵的工程资源，应该专注于思考如何为业务创造差异化价值，如何在竞争中胜出。

核心教训： 让工程师做有创造力的事情，把繁琐的底层技术难题交给成熟的平台。

7. “没人用”的AI不是好AI：深度融入工作流

我们经常看到这样的情况：一家公司宣布他们的生成式AI系统成功上线生产环境。但当你追问有多少人在用时，答案常常是“零”。

这可能是因为 система 为了通过内部风险审核而被层层设限，变得几乎不可用；也可能是因为它与用户现有的工作方式格格不入。一个无法被消费的AI，没有任何价值。

核心教训： AI的成功不仅在于技术实现，更在于使用体验。将AI无缝地集成到用户已有的工作流程中，是提升采用率的关键。

8. 创造“哇”时刻：让用户为你代言

如何让AI应用变得“有粘性”？关键在于尽快让用户体验到那个“哇！”（Wow）的时刻。

高通（Qualcomm）的一个案例非常经典。他们的一位客户工程师在使用我们的系统时，意外发现了一份被遗忘了七年之久的旧文档。这份文档恰好解答了他长期以来的困惑。在那一刻，他体验到了前所未有的震撼。从那以后，他成了这个系统最热情的推广者。

核心教训： 设计你的用户引导流程，让用户能以最快的速度发现AI的惊人之处。这些小小的“胜利”，是推动AI在企业内部普及的最佳催化剂。

9. 重新定义“准确”：关注那5%的“不准确”

作为AI从业者，我们都明白100%的准确率几乎是不可能的。追求95%的准确率已经非常了不起。但对于企业而言，他们更关心的是：那剩下的5%会怎么样？

当AI出错时，我们该如何应对？因此，问题不再仅仅是“准确性”（Accuracy），而是如何管理“不准确性”（Inaccuracy）。

这就要求我们必须具备：

可观测性 (Observability): 清晰地评估系统表现。
可审计性 (Audit Trails): 尤其在受监管行业，必须能追溯每一次决策的依据。
可归因性 (Attribution): RAG系统必须能明确指出“答案来自哪篇文档的哪一段”，用证据支撑其生成的内容。

核心教训： 准确率是基础门槛，但建立信任的关键在于如何透明、负责地处理那部分不可避免的“不准确”。

10. 拒绝“小打小闹”：敢于“登月”，创造真正的影响

我们看到很多AI项目失败，不是因为目标定得太高，而是因为定得太低了。

如果你的生成式AI项目只是用来回答“公司401k养老金的供应商是谁？”或者“我还有几天年假？”，那它带来的ROI微乎其微，最终只会沦为一个没人用的噱头。

我们正处在一个堪比“登月时代”的特殊时期，AI将从根本上改变社会。作为这个时代的参与者，你的目标不应该是摘那些低垂的果实。

核心教训： 保持雄心。瞄准那些一旦解决，就能带来巨大商业回报的核心问题。敢于挑战，敢于“登月”，这才是AI时代应有的姿态。

“上下文悖论”不会消失，但通过理解这10条来自一线的教训，你完全可以将挑战转化为机遇。建立系统思维，拥抱专业化，并始终保持雄心，你就能在AI浪潮中成功驾驭自己的航船，创造出真正的价值。

上下文悖论：AI时代的新挑战#

1. 破除模型迷思：系统 > 模型#

2. 别做万金油：专业化胜过通用人工智能 (AGI)#

3. 数据就是护城河：拥抱规模与噪音#

4. Demo陷阱：从第一天起，就为生产环境设计#

5. 速度为王：快速迭代，拒绝“完美”#

6. 解放工程师：让他们专注业务价值，而非“切块”#

7. “没人用”的AI不是好AI：深度融入工作流#

8. 创造“哇”时刻：让用户为你代言#

9. 重新定义“准确”：关注那5%的“不准确”#

10. 拒绝“小打小闹”：敢于“登月”，创造真正的影响#