Posts

真正的 LLM Agents 即将到来 • Alexander Doria

本文的核心观点是，真正的生成式 AI LLM 智能体 (agents) 正在到来，它们与目前常见的基于工作流的系统有着本质的区别。这些新型智能体能够进行规划、记忆，并有效地执行多步骤、长期的任务。与预定义规则和提示的工作流系统不同，真正的 LLM 智能体能够动态地指导自身流程和工具使用，从而克服了传统方法在可扩展性和长期效能方面的局限性，并有望在各个领域带来颠覆性变革。文章强调，要实现真正的 LLM 智能体，需要采用强化学习 (RL) 与推理 (Reasoning) 相结合的方法，并克服数据和计算方面的挑战，以推动这项技术的民主化发展。 LLM 智能体的定义与兴起：文章指出，OpenAI 在 2025 年 1 月发布的 DeepResearch 以及 Claude Sonnet 3.7 是真正的 LLM 智能体的早期例证。Anthropic 将 LLM 智能体定义为能够动态控制自身流程和工具使用的系统，这与通过预定义代码路径编排 LLM 和工具的工作流系统形成对比。工作流系统的局限性：文章批评了当前许多 “智能体” 系统，如 Manus AI，实际上是工作流系统，它们在规划、记忆和长期行动方面存在根本性缺陷，例如无法有效规划搜索策略、难以维持超过 5-10 分钟的任务、以及长期行动中容易累积错误。 “苦涩的教训” (Bitter Lesson)：文章引用了 Richard Sutton 的 “苦涩的教训”，指出在 AI 智能体中硬编码知识和规则虽然短期内有效，但长期来看会阻碍进步。真正的突破来自于扩展计算规模，并基于搜索和学习的方法。这表明，依赖预定义提示和规则的工作流系统注定会遇到瓶颈。 RL + Reasoning 是制胜之道：文章强调，真正的 LLM 智能体需要通过强化学习 (RL) 进行训练，并结合推理能力。训练过程涉及生成草稿、评估结果 (通过验证器 verifiers) 以及迭代优化。DeepSeek 的 GRPO 算法和 vllm 技术被认为是实现高效 RL 训练的关键。数据和计算的挑战与解决方案：训练 LLM 智能体，特别是对于复杂任务如搜索，需要大量的行动序列数据。由于缺乏公开的 agentic 数据，文章提出了通过模拟 (emulation) 和合成数据生成来解决数据瓶颈的思路。例如，可以创建网络搜索的模拟环境，并利用 Common Crawl 等数据集进行训练。 LLM 智能体的应用前景：文章展望了 LLM 智能体在搜索之外的应用，例如网络工程 (自动生成设备配置、分析网络拓扑) 和金融领域 (数据标准转换)。这些应用场景都超越了传统工作流系统的能力，需要智能体具备自主规划和动态决策的能力。技术民主化的必要性：文章最后指出，目前 LLM 智能体技术主要掌握在少数大型实验室手中，为了促进技术发展和应用普及，需要推动 LLM 智能体训练和部署的民主化，例如开放验证器、 GRPO 训练样本以及复杂的合成管线和模拟器。原文：真正的 LLM Agents 即将到来实际的大语言模型 AI 智能体 (LLM Agent) 即将到来。它们将被训练现在“智能体”这个词随处可见。然而，在大语言模型 (LLM) 驱动的智能体研究领域，一项最重要的研究进展却几乎没有引起人们的注意。...

【科普】大模型中常说的 MoE 是指什么？

在大语言模型（LLM）领域，模型规模的持续增长是提升性能的关键途径之一。然而，简单地增加模型参数会带来计算成本的急剧上升。为了在扩大模型容量的同时控制计算负担，一种名为“混合专家模型”（Mixture of Experts，MoE）的架构应运而生，并在近年来受到了广泛关注。 MOE，全称 Mixture of Experts（混合专家），是一种机器学习技术，首次在 2017 年提出，主要用于语言建模和机器翻译任务。它并非一种全新的模型，而是一种架构设计思想，可以将其理解为一种特殊的神经网络层。与传统神经网络层不同，MoE 层包含多个“专家”（Experts）和一个门控网络，每个专家都是一个独立的神经网络，可以专注于处理特定类型的数据或任务，门控网络动态选择适合当前输入的专家，从而实现条件计算和专门化。想象一个医疗团队：每个医生（专家）专注于不同领域（如语法或语义），而总医生（门控网络）根据患者症状决定转诊给谁。这样，每个患者只与最相关的专家互动，节省资源。 Mixtral 8x7B 是 MOE 在 LLM 中的一个典型案例，总参数为 47 亿，活跃参数约为 13 亿。它有 8 个专家，每个专家在推理时可能被激活 2 个。这种设计使其在推理时高效，适合处理大规模语言任务。研究显示，它在领域内任务上表现优异，但在领域外任务上效率稍低。 MoE 的原理 MoE 层的核心组件 Experts（专家）：多个独立的神经网络，例如前馈神经网络（FFN）。每个专家都具备处理特定类型数据的能力。 Gating Network（门控网络）：一个路由网络，用于决定将哪些输入数据发送给哪些专家。它根据输入数据的特征，为每个专家分配一个权重，表示该专家处理该输入的概率或重要性。 Combining Function（组合函数）：将被选中的专家的输出进行聚合，生成最终的 MoE 层输出。常用的组合方式包括加权平均。 MoE 的工作原理输入： MoE 层接收来自上一层的输入数据。门控网络：门控网络分析输入数据，并为每个专家计算一个权重。权重越高，表示该专家越适合处理该输入。专家选择：根据门控网络的输出，选择一个或多个具有较高权重的专家。常见的选择方式包括 Top-K 选择，即选择权重最高的 K 个专家。专家计算：被选中的专家并行地处理输入数据，并生成各自的输出。输出：组合函数将这些输出进行聚合，生成 MoE 层的最终输出。 MoE 的优劣势 MoE 的优势更大的模型容量： MoE 允许模型拥有更多的参数，从而提高模型的表达能力和学习能力。稀疏激活： MoE 的一个关键优势是稀疏激活。对于每个输入，只有少数几个专家会被激活，这意味着计算量可以显著减少。更好的可扩展性： MoE 架构易于扩展，可以通过增加专家数量来提高模型容量，而无需重新训练整个模型。任务专用化：不同的专家可以学习不同的任务或技能，从而使模型更具通用性和适应性。高效扩展： MoE 通过稀疏激活和专家特化实现高效扩展。例如，Switch Transformers 等模型在能耗仅为 GPT-3 的三分之一的情况下，实现了与 GPT-3 同等的质量。[2] MoE 的挑战训练难度： MoE 模型的训练比传统模型更具挑战性，需要仔细调整训练策略和超参数。负载均衡：如何确保每个专家都能得到充分的训练，避免某些专家过度使用而另一些专家利用不足，是一个需要解决的问题。常见的解决方案包括辅助损失和专家容量限制。通信开销：在分布式训练中，专家之间的通信可能会产生额外的开销。内存需求：所有专家都必须加载到 RAM 中，即使未使用（例如，Mixtral 8x7B 需要 VRAM 才能支持 47B 参数）。 Token 溢出：当专家超出容量时，可能会删除 Token 或通过残差进行路由。过拟合风险：稀疏模型比传统密集模型更容易过度拟合，稀疏 MoE 层和密集 FFN 层的存在使统一方法复杂化。 MoE 的应用 MoE 已经在多个领域取得了显著成果，包括：...

【科普】大模型中常说的 Prompt Caching 是指什么？

近年来，大型语言模型（LLMs，Large Language Models）在自然语言处理领域取得了显著的进展。然而，这些模型通常具有庞大的参数量和计算复杂度，导致推理过程（即根据输入生成输出的过程）耗时且昂贵。缓存是一种常见的计算机技术，其核心思想是将计算结果或数据临时存储起来，以便后续重复使用，从而避免重复计算或数据访问，提高效率。在大模型中，缓存的原理也类似，只不过存储的内容和应用场景更加复杂。在大型语言模型中提到的缓存（Caching），并不是直接缓存 system_prompt 或 user_prompt 的文本内容，而是缓存模型在计算过程中生成的中间计算结果，尤其是 Transformer 模型中的键值向量（Key-Value Vectors，KV Cache）。不过，当输入的文本有相同前缀时，可以利用缓存避免重复计算。 1. 缓存的核心：键值向量（KV Cache）在 Transformer 的自注意力机制中，每个词元（Token）会生成一对向量： Key（K）：用于计算其他词元对它的关注程度。 Value（V）：存储该词元的语义信息。缓存的作用：在生成文本时（例如逐词生成回答），模型会将已生成词元的 K 和 V 向量存储下来。当生成下一个词元时，直接复用这些历史向量，避免重新计算。 2. 前缀匹配与缓存复用当用户输入的提示（Prompt）有相同的前缀时，模型可以利用缓存快速处理。例如：用户输入1： "法国的首都是哪里？法国的美食有哪些？" 用户输入2： "法国的首都是哪里？德国的首都是哪里？" 假设模型已经处理过用户输入1 的前缀 "法国的首都是哪里？"，那么处理用户输入2 时：发现前缀 "法国的首都是哪里？" 和之前相同。直接复用此前缀对应的 KV 缓存，无需重新计算这一部分的 K 和 V 向量。只需计算新增部分 "德国的首都是哪里？" 的向量。 3. 具体例子假设用户连续两次提问：第一次提问： System Prompt: "你是一个百科全书助手。" User Prompt: "爱因斯坦提出了什么理论？" 模型行为：计算 System Prompt 和 User Prompt 的所有词元，生成对应的 K 和 V 向量，并缓存。...

OpenAI 官方指南：用于构建 AI Agent 的新工具

2025 年 3 月 12 日，OpenAI 发布了一系列新的 API 和工具，旨在简化开发者和企业构建实用且可靠的 “生成式 AI 产品” 代理（agents）。 Responses API Responses API 是构建 “生成式 AI 产品” 代理的新 API 原语，它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。通过单个 Responses API 调用，开发者可以使用多种工具和模型轮次来解决复杂的任务。 Responses API 初始支持的内置工具包括：网页搜索：使用 gpt-4o 和 gpt-4o-mini 模型时可用的工具，可以提供快速、最新的答案，并带有清晰且相关的来源引用。在 SimpleQA 基准测试中，GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别获得了 90% 和 88% 的准确率。网页搜索 API 返回的结果包含来源链接。文件搜索：可以从大量文档中轻松检索相关信息，支持多种文件类型、查询优化、元数据过滤和自定义重排序。定价为每千次查询 2.50 美元，文件存储为每月每 GB 0.10 美元，首 GB 免费。计算机使用：由与 Operator 相同的 Computer-Using Agent (CUA) 模型驱动，可以自动化计算机上的任务。在 OSWorld 基准测试中，成功率为 38....

推理模型的希望 • Epoch AI

本文由 Epoch AI 官方博客发布，主要分析推理模型的影响。推理模型的核心思想是在运行时让模型进行更长时间的思考，以找到问题的正确解决方案。这可以通过提示模型逐步思考，展示显式的思维链来实现。早期的 LLM 在简单地被要求长时间思考时表现出较差的扩展性，但通过应用强化学习 (RL) 方法，特别是在奖励模型正确答案的情况下，推理模型的推理质量得到了显著提高。这种方法即使不奖励中间推理步骤，也能促使模型学习生成长的推理链，从而提高推理质量。推理模型的一个重要优势是能够生成高质量的合成训练数据，用于改进未来的推理模型甚至非推理模型。强化学习在推理模型中的成功应用表明，它可以有效地提高 LLM 的性能，并有可能将模型性能提升到超人水平。强化学习最适用于解决方案易于验证的任务，因为这类任务可以提供密集的奖励信号，从而促进高效训练。未来几年内，在数学问题解决和定理证明领域，推理模型将取得显著进展，到 2027 年底，AI 有 3/5 的概率能够在自主证明任意数学定理方面超越顶尖人类数学家。推理模型最有可能成功应用于满足两个关键标准的任务：(1) LLM 预训练数据包含大量与执行任务相关的信息；(2) 解决方案可以低成本且可编程地验证。这些任务被称为 “纯推理任务”。然而，许多经济价值高的任务可能不属于 “纯推理任务” 的范畴。对于视频编辑等任务，由于缺乏高质量的、与任务执行方式直接相关的数据，以及评估质量的反馈成本高昂，AI 在自动化这些任务方面将面临挑战。因此，尽管 AI 在逻辑推理等领域将取得巨大进步，但在自动化需要经验反馈和难以验证的任务方面，仍将面临重大挑战。虽然推理模型提高了外部部署 AI 的效用，也增强了内部使用推理计算的效用（用于生成合成训练数据），但这两种效应可能会大致相互抵消，不会导致计算资源在内部开发和外部部署之间分配的根本性转变。基于以往类似创新的经验，推理模型对商业模式的影响将是平衡的，不会颠覆现有模式。总而言之，推理模型将在未来几年的人工智能发展中发挥重要作用，特别是在自动化 “纯推理任务” 方面。然而，推理模型应被视为人工智能长期发展趋势的一部分，持续扩展 AI 可以执行的任务范围。要充分释放 AI 在自动化所有有价值的经济任务方面的潜力，还需要在多模态、自主性、长期记忆和机器人技术等领域取得更多突破。未来，多智能体协作等新的推理扩展方式可能会成为新的发展方向。原文：推理模型的希望过去一年中，也许最重要的 AI 进展是推理模型 (Reasoning Models) 的兴起——通过强化学习训练的大语言模型 (LLM)，用于解决复杂问题，例如 OpenAI 的 o1，DeepSeek-R1 和 Claude 3.7 Sonnet。这些模型已经展示了卓越的成功，显著增强了 AI 在数学问题解决、科学推理和编码方面的人工智能水平 (AI capabilities)。在本文中，我旨在提出一个清晰的概念框架，以理解推理模型 (Reasoning Models) 可能对世界产生的影响。我的核心论点是，推理模型 (Reasoning Models) 的主要结果将是创造出在“纯推理任务”上具有狭义超人能力的 AI ——具有正确答案且可以低成本验证的抽象任务。例如，我猜测在未来三年内，可能会开发出能够胜过顶尖人类数学家证明任意数学定理的 AI。与此同时，我预测具有经济价值的 AI 性能将会滞后，可靠的 AI 智能体 (AI Agent) 的出现将明显晚于高质量的推理模型 (Reasoning Models)。...

如果你的产品足够卓越，就不必仅仅满足于“好”的标准 • Paul Buchheit

本文的作者是 Gmail 的创始人 Paul Buchheit，本文核心观点是，伟大的产品不需要在所有方面都表现良好，而应该专注于少数几个关键属性并做到极致。他认为产品设计成功的关键在于选择两到三个核心功能，并投入所有精力把这些功能做到非常出色，而其他次要功能可以暂时忽略。这种方法能够迫使产品团队找到产品的真正本质和价值。 iPod 的案例：最初的 iPod 专注于三个关键属性： 1) 足够小巧，可以放入口袋； 2) 拥有足够大的存储空间，可以容纳数小时的音乐； 3) 易于与 Mac 同步。尽管缺少无线功能、设备上编辑播放列表的功能以及对 Ogg 格式的支持等，iPod 仍然取得了巨大的成功，因为它在核心功能上做得非常出色。 Gmail 的案例： Gmail 在推出时也采用了类似的方法，专注于： 1) 速度快； 2) 存储所有邮件（在当时 4MB 配额是常态的情况下）； 3) 基于对话和搜索的创新界面。 Gmail 最初的功能非常精简，例如没有富文本编辑器，地址簿功能也极其简单，但这些次要功能的缺失并没有妨碍 Gmail 成为一款伟大的产品。对 “更多功能=更好” 误区的批判：作者认为，很多人在产品设计上犯错，是因为他们陷入了 “更多功能=更好” 的误区。他们错误地认为，成功的产品必须拥有竞争对手产品的所有功能，甚至更多。作者指出，如果一个产品需要 “一切” 功能才能变得好，那么它很可能缺乏创新性。 iPad 的启示：文章提到了 iPad 发布初期，人们也像批评 iPod 一样，关注其 “缺失” 的功能，例如进程管理器、文件管理器、窗口管理器等。作者认为，iPad 的价值可能在于它提供了一种快速、简单、可共享的互联网窗口，能够激发用户新的使用场景，例如在家中轻松浏览网页、共享照片、玩棋盘游戏，在办公室进行远程协作等。 iPad 的简洁性，使其像 iPhone 一样，成为一个无需思考即可使用的简单设备，与复杂笨重的笔记本电脑形成对比。产品设计的核心原则：对于新产品的创建，作者建议聚焦于三项或更少的关键功能，并投入至少 80% 的精力把这些功能做到极致。对于那些需要长长的功能列表的市场（通常是企业级产品），可以考虑堆砌功能，但对于消费者产品，简洁和核心功能的卓越性才是关键。免责声明：作者的建议主要适用于消费者产品（购买者也是使用者），对于那些购买流程复杂、需要满足大量功能需求的市场，可能不适用。原文：如果你的产品足够卓越，就不必仅仅满足于“好”的标准 Paul Buchheit 是 Gmail 的创建者。他最初在 2010 年以博客 post 的形式发表了这篇文章。...

模型即产品 • Alexander Doria

大模型时代我一直有一个观点，即“模型即应用”，这篇由 pleias 联合创始人 Alexander Doria 所写的文章也在说阐述类似的逻辑，所以我把它翻译了一下分享给大家。文章的核心观点是，人工智能 (AI) 发展的下一个阶段将以 “模型即产品” 为中心。过去几年关于 AI 发展方向的猜测，如智能体、推理器和多模态，都指向了模型本身的重要性日益提升。当前的研究和市场发展趋势都支持这一观点，预示着模型提供商将不再仅仅是 API 的提供者，而是转向提供更完整、更高价值的产品和服务。 OpenAI 的 DeepResearch 和 Claude Sonnet 3.7 作为 “模型即产品” 新范式的代表，DeepResearch 不是简单的 O3 封装，而是一个完全重新训练的模型，具备内部搜索、点击、滚动和文件解析等浏览能力，能够独立完成端到端的搜索任务并生成结构化的报告。这与 Perplexity 和 Google 等的 “Deep Research” 功能有所不同，后者可能只是在现有模型基础上进行微调。 Anthropic 对智能体的定义，强调真正的智能体应该能够 “动态地指导自己的流程和工具使用，保持对完成任务方式的控制” ，即内部自主完成任务。而目前许多初创公司构建的 “智能体” 实际上是 “工作流” ，即通过预定义的代码路径编排 LLMs 和工具的系统。作者认为，自主系统的重大进展将来自于模型本身的重新设计，而不是工作流的编排。Claude 3.7 的发布以及 Pleias 在 RAG 自动化方面的尝试都印证了这一点。对于许多成功的模型 “wrapper” (封装应用) 来说，面临着 “训练或被训练” 的两难选择。大型模型提供商正在向上游应用层扩展，试图捕获更多价值，而 “wrapper” 公司可能会沦为大型模型提供商的免费市场调研和数据生成者。 Naveen Rao 预测，封闭模型提供商将在未来 2-3 年内停止销售 APIs ，转而提供带有用户界面的完整应用。...

Duolingo 成功的秘诀！

Duolingo Handbook阐述了公司在过去十四年发展过程中形成的独特运营哲学和文化基石。核心理念是构建世界上最好的教育，并使其在全球范围内普及。为了实现这个宏伟目标，Duolingo 采取了长远的眼光，重视用户长期留存和品牌建设，并坚持产品驱动，通过不断试验和快速迭代来优化产品和服务。同时，Duolingo 注重营造轻松有趣的学习氛围，并以此构建了其独特的品牌形象。长期视角 (Take the Long View) Duolingo 从创立之初就定位为一个需要数十年才能实现的长期项目。公司早期拒绝通过增加广告来快速增加收入，而是优先考虑用户体验和长期增长。在技术选择上，Duolingo 敢于投资早期但有潜力的技术，例如早期的文本转语音系统。在招聘方面，Duolingo 注重长期雇佣，寻找愿意与公司共同成长的人才。为了保持用户长期参与，Duolingo 不断完善 “Streak” 功能，并持续投入改进教学质量。即使在商业化方面，Duolingo 也坚持不以牺牲教育使命为代价，例如，付费订阅服务在去除广告的同时，仍然保证免费用户能够获得优质的学习体验。 “Duolingo Score” 和 “DET (Duolingo English Test)” 的推出也是长期视角的体现，旨在建立全球语言能力的标准。提升标准 (Raise the Bar) Duolingo 从创始人开始就对细节有着近乎苛刻的追求。公司通过明确责任制 (“Taking Ownership”) 来保证高标准，并鼓励员工通过每日使用产品 (“Dogfooding”) 和 “Shake to Report” 功能来发现和报告问题。在团队文化上，Duolingo 提倡 “对事不对人 (Hard on the Work, Easy on the People)” 的反馈文化，鼓励建设性的批评和开放的沟通。对于产品和设计，Duolingo 设定了 “有用 (Useful)”、“直观 (Intuitive)”、“有趣 (Delightful)” 和 “精致 (Polished)” 四个标准。在招聘方面，Duolingo 坚持高标准，即使长时间空缺职位，也不降低标准迁就，甚至拒绝了资深高管，因为他们缺乏 “善良 (kind)” 的品质。Duolingo 推崇 “V1s” 而非 “MVPs”，即发布的第一个版本就必须是高质量的、完善的产品，而不是半成品。快速行动 (Ship It) “快速行动 (Ship It)” 是 Duolingo 保持竞争力的关键。公司每周都会发布 iOS 和 Android 应用的新版本，并同时进行数百个实验 (“experiments”)。 “时钟速度 (Clock Speed)” 的概念被用来衡量和提升工作效率，旨在最大限度地减少决策和执行之间的间隔。为了确保资源投入到最重要的事情上，Duolingo 实行 “无情的优先级排序 (Ruthless Prioritization)”，砍掉效果不佳的项目，集中资源投入到高影响力的项目上。为了避免 “组织结构镜像产品 (shipping the org)” 的问题，Duolingo 强调从整体用户体验出发进行产品设计。公司鼓励 “实验文化 (Culture of Experimentation)”，允许试错，并从失败中学习。为了在快速行动的同时保持质量，Duolingo 引入了 “产品评审 (Product Review, PR)” 等流程，以确保决策的透明度和高效性。 “99 个坏主意 (99 Bad Ideas)” 的头脑风暴活动鼓励员工挑战传统思维，提出大胆的想法。...

介绍一下 Claude 3.7 Sonnet

Anthropic 于 2025年 2 月 25 日发布了其最新的 AI 模型 Claude 3.7 Sonnet，并称其为目前最智能的模型，也是市场上首个混合推理模型。该模型独特之处在于它既能提供近乎即时的响应，也能进行更长时间、逐步深入的思考，并且用户可以通过 API 精细地控制模型的思考时长。 Claude 3.7 Sonnet 既是普通 LLM 又是推理模型。在标准模式下，它是 Claude 3.5 Sonnet 的升级版；在扩展思考模式下，它会在回答前进行自我反思，从而提高其在数学、物理、指令跟随、编码和许多其他任务上的性能。Claude 3.7 Sonnet 的开发理念与其他推理模型不同。 Anthropic 认为，推理能力应该是前沿模型的集成能力，而不是一个完全独立的模型，就像人类使用同一个大脑进行快速反应和深入思考一样。这种统一的方法为用户创造了更无缝的体验。 Claude 3.7 Sonnet 现已在所有 Claude 计划（包括 Free, Pro, Team 和 Enterprise 计划）以及 Anthropic API, Amazon Bedrock 和 Google Cloud 的 Vertex AI 上提供。扩展思考模式在除免费 Claude 层级外的所有平台均可用。 Claude 3.7 Sonnet 的定价与其前代产品相同，为每百万输入 tokens 3 美元，每百万输出 tokens 15 美元，其中包括思考 tokens 。与 Claude 3.7 Sonnet 模型一同发布的还有 Claude Code ，这是一个用于 agentic coding 的命令行工具，目前以有限的研究预览版形式提供。 Claude Code 旨在让开发者能够直接从终端将大量的工程任务委托给 Claude 完成。...

如何高效使用 DeepSeek-R1 这种推理模型？

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！我看了下其中有一些内容很好，翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些 Token 被包含在 <think> 标签中，以及最终的答案。由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力，因此它们的输出通常更长，计算速度也更慢，成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果推理模型（如 deepseek-r1、o1、o3-mini等）擅长根据已知信息进行逻辑推理和问题求解，而非推理模型（deepseek-v3、gpt-4o、claude-3.5-sonnet等）则更侧重于信息检索和模式匹配。下面我们提供一份指南，帮助你充分发挥 DeepSeek-R1 的性能：清晰且具体的提示语 (prompts)：使用简洁明了的语言编写指令，明确表达你的需求。复杂冗长的提示语往往效果不佳。采样参数：建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6)，以避免模型产生重复或不连贯的输出。同时，top-p (概率截断) 建议设置为 0.95。避免使用系统提示 (system prompt)：不要添加额外的系统提示语，所有指令都应包含在用户提示语中。避免使用少量样本提示 (few-shot prompting)：不要在提示语中提供任何示例，因为这会降低模型的性能。相反，请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例，请确保示例与你的提示语要求高度一致。组织你的提示语：使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。设置明确的要求：当你的请求存在特定限制或标准时，请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。无论是预算限制、时间限制还是特定的格式要求，都应清晰地概述这些参数，以便引导模型生成符合要求的回复。清晰地描述输出：详细描述你期望的输出结果。描述具体的特征或质量，以便模型生成完全符合你需求的响应，并朝着满足这些标准的方向努力。多数投票选择回复：在评估模型性能时，建议生成多个解决方案，然后选择出现频率最高的结果。避免使用思维链提示 (chain-of-thought prompting)：由于这类模型在回答问题之前会自主进行推理，因此无需指示它们“逐步思考……” 数学任务：对于数学问题，建议在提示语中添加如下指令：“请逐步进行逻辑推理，并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签：极少数情况下，DeepSeek-R1 可能会跳过思考过程，从而对模型性能产生负面影响。在这种情况下，模型输出的响应将不会以 <think> 标签开头。如果你遇到此问题，可以尝试引导模型以 <think> 标签开头。应用场景评估其他大语言模型 (Benchmarking other LLMs): 评估大语言模型响应的上下文理解能力，这在需要严格验证的领域（如法律、金融和医疗保健）中尤为重要。代码审查 (Code Review): 执行全面的代码分析，并针对大型代码库提出改进建议。战略规划 (Strategic Planning): 制定详细的计划，并根据具体的任务需求选择合适的 AI 模型。文档分析 (Document Analysis): 处理非结构化文档，并识别多个来源之间的模式和关联。信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据，非常适合 RAG 系统。歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令，并在需要时主动寻求澄清，而不是直接进行猜测。上下文和成本在使用推理模型时，至关重要的是在上下文窗口中保持足够的空间，以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token，而复杂的挑战可能需要数万个 Token。...