RAG

本文来自于 RAG 技术的开创者 Douwe Kiela 在 2025 AI 工程师峰会上的演讲：RAG 代理在生产环境中的应用：我们学到的 10 个经验教训。Douwe Kiela 是 Contextual AI 的首席执行官兼联合创始人。他还在斯坦福大学担任副教授。之前，他曾担任 Hugging Face 的研究主管以及 Meta 的基础 AI 研究 (FAIR) 团队的研究负责人，在那里他率先推出了检索增强生成 (RAG) 等其他关键的 AI 突破。他在多模态、对齐和评估方面的研究为 AI 领域树立了新的标准，并使系统更安全、更可靠和更准确。生成式AI的浪潮正以前所未有的力量席卷全球，麦肯锡预测它将为全球经济带来高达4.4万亿美元的增值。这是一个巨大的机遇，但现实却有些骨感：只有四分之一的企业真正从AI投资中获得了价值。为什么会这样？一边是无限的潜能，另一边却是普遍的挫败感。Contextual AI的CEO、同时也是RAG（Retrieval-Augmented Generation）技术的开创者Douwe Kiela认为，我们正面临一个**“上下文悖论” (Context Paradox)**。上下文悖论：AI时代的新挑战你可能听说过机器人领域的“莫拉维克悖论”（Moravec’s Paradox）：对人类来说困难的事情（如下棋），对计算机来说轻而易举；而对人类来说简单的事情（如打扫房间），对机器人来说却难如登天。如今，在企业AI领域，类似的悖论正在上演。大型语言模型（LLM）能写出比多数人类更优秀的代码，能解决复杂的数学问题，但在一个对人类来说几乎是本能的领域——理解和运用上下文——却步履维艰。人类专家可以轻而易举地利用多年的经验和直觉，将信息置于正确的场景中进行判断。而这，正是当前AI的短板，也是决定AI能否创造真正商业价值的关键。企业AI的价值路径，是从提供“便利性”的通用助手，走向创造“差异化价值”的业务转型。你走得越远，对上下文处理能力的要求就越高。那么，如何跨越这道鸿沟？Douwe Kiela结合他创办Contextual AI两年来，将RAG智能体 (RAG Agents) 推向生产环境的经验，分享了10条宝贵的实战教训。 1. 破除模型迷思：系统 > 模型当一个新的、更强大的语言模型发布时，整个行业都会为之沸腾。人们的注意力往往只集中在模型本身，却忽略了一个事实：在企业应用中，LLM通常只占整个系统的20%。真正解决问题的是一个完整的系统，而RAG是这个系统的核心组件。一个性能平平的模型，搭配一套卓越的RAG系统，其效果远胜于一个顶尖模型配上一套糟糕的RAG系统。核心教训：不要只盯着模型，要建立系统性思维。解决商业问题的，是系统，而非孤立的模型。 2. 别做万金油：专业化胜过通用人工智能 (AGI) 通用人工智能（AGI）的愿景固然激动人心，但在解决具体的企业问题时，专业化才是王道。企业的核心竞争力在于其日积月累的专业知识和行业洞见。通用模型很难企及内部专家的水平。与其追求一个“什么都懂一点”的通用模型，不如针对特定领域和用例进行深度优化和专业化训练。这样才能真正把企业的“专家知识”这个燃料库点燃。核心教训：聚焦专业化，让AI成为你所在领域的专家，而不是一个泛泛的通才。 3. 数据就是护城河：拥抱规模与噪音一家公司的本质是什么？是员工吗？不完全是，员工会流动。从长远看，公司的本质是其独有的数据。这些数据，构成了企业最坚实的护城河。...

本文翻译自 Llamaindex 官方发布的一篇文章：《Towards Long Context RAG》 Google 最近发布了 Gemini 1.5 Pro，带有 1M context window，仅向一小部分开发者和企业客户提供。它在由 Greg Kamradt 推广的“大海捞针”实验中实现了 99.7% 的召回率。这一成就引起了 Twitter 上的 AI 圈子的广泛关注。早期用户输入了大量研究论文和财务报告进行测试，并报告说其在整合海量信息方面表现出色。这自然引发了一个问题：RAG 是否已经过时了？有人认为确实如此，而另一些人则持不同意见。认为 RAG 过时的一方提出了一些有力的论点，比如大多数小数据场景都可以适应 1 到 10M 的上下文窗口大小，而且随着时间的推移，处理 token 的成本和速度都会降低。通过注意力层直接在大语言模型（LLM）中融合检索和生成过程，与简单的 RAG 模型中单次检索相比，可以获得更高质量的响应。我们有幸提前体验到 Gemini 1.5 Pro 的能力，并在此基础上发展了一套论点，关于 context-augmented LLM 应用的未来发展方向。本篇博客旨在明确我们作为数据框架的使命，以及我们对长上下文大语言模型架构未来形态的看法。我们认为，尽管长上下文的大语言模型会简化某些 RAG 处理流程（如数据分块），但为了应对新的使用场景，还需发展新的 RAG 架构。无论未来发展如何，LlamaIndex 的使命都是为构建未来的工具而努力。我们的使命远不止于 RAG LlamaIndex 的宗旨非常明确：赋能开发者在自己的数据上构建基于大语言模型的应用。这个目标远不止于 RAG。迄今为止，我们已经在推动现有大语言模型使用 RAG 技术方面投入了巨大的努力，这使得开发者能够开发出许多新的应用场景，例如在半结构化数据、复杂文档上进行问答(QA)以及在多文档环境中进行具有代理能力的推理。对 Gemini Pro 的兴奋之情也同样激励着我们，未来我们将继续推动 LlamaIndex 作为一个面向长上下文大语言模型时代的数据框架向前发展。 **大语言模型框架本身极具价值。**作为一个开源的数据框架，LlamaIndex 为从原型到生产构建任何大语言模型应用场景提供了一条清晰的路径。与从头开始构建相比，使用框架能显著简化开发过程。我们使所有开发者都能够构建这些应用场景，无论是通过使用我们的核心抽象来搭建恰当的架构，还是利用我们生态系统中的众多集成。不论底层大语言模型技术如何进步，不论 RAG 是否继续以当前形式存在，我们会持续优化框架，确保其准备就绪，包括严密的抽象设计、一流的文档和一致性。我们上周还推出了 LlamaCloud。LlamaCloud 的使命是构建数据基础设施，使任何企业能够让其庞大的非结构化、半结构化和结构化数据源为使用大语言模型做好准备。 Gemini 1.5 Pro 初步观察在我们的初步测试中，我们尝试了一些 PDF 文件，如 SEC 10K 文件、ArXiv 论文、这个庞大的 Schematic Design Binder，等等。一旦 API 可用，我们将进行更深入的分析，但暂时，我们在下面分享了一些观察结果。...

RAG 代理在生产环境中的应用：我们学到的 10 个经验教训 • Douwe Kiela

探索长文本上下文的 RAG 方向 • LlamaIndex