Deepseek-R1

如何高效使用 DeepSeek-R1 这种推理模型？

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！我看了下其中有一些内容很好，翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些 Token 被包含在 <think> 标签中，以及最终的答案。由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力，因此它们的输出通常更长，计算速度也更慢，成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果推理模型（如 deepseek-r1、o1、o3-mini等）擅长根据已知信息进行逻辑推理和问题求解，而非推理模型（deepseek-v3、gpt-4o、claude-3.5-sonnet等）则更侧重于信息检索和模式匹配。下面我们提供一份指南，帮助你充分发挥 DeepSeek-R1 的性能：清晰且具体的提示语 (prompts)：使用简洁明了的语言编写指令，明确表达你的需求。复杂冗长的提示语往往效果不佳。采样参数：建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6)，以避免模型产生重复或不连贯的输出。同时，top-p (概率截断) 建议设置为 0.95。避免使用系统提示 (system prompt)：不要添加额外的系统提示语，所有指令都应包含在用户提示语中。避免使用少量样本提示 (few-shot prompting)：不要在提示语中提供任何示例，因为这会降低模型的性能。相反，请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例，请确保示例与你的提示语要求高度一致。组织你的提示语：使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。设置明确的要求：当你的请求存在特定限制或标准时，请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。无论是预算限制、时间限制还是特定的格式要求，都应清晰地概述这些参数，以便引导模型生成符合要求的回复。清晰地描述输出：详细描述你期望的输出结果。描述具体的特征或质量，以便模型生成完全符合你需求的响应，并朝着满足这些标准的方向努力。多数投票选择回复：在评估模型性能时，建议生成多个解决方案，然后选择出现频率最高的结果。避免使用思维链提示 (chain-of-thought prompting)：由于这类模型在回答问题之前会自主进行推理，因此无需指示它们“逐步思考……” 数学任务：对于数学问题，建议在提示语中添加如下指令：“请逐步进行逻辑推理，并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签：极少数情况下，DeepSeek-R1 可能会跳过思考过程，从而对模型性能产生负面影响。在这种情况下，模型输出的响应将不会以 <think> 标签开头。如果你遇到此问题，可以尝试引导模型以 <think> 标签开头。应用场景评估其他大语言模型 (Benchmarking other LLMs): 评估大语言模型响应的上下文理解能力，这在需要严格验证的领域（如法律、金融和医疗保健）中尤为重要。代码审查 (Code Review): 执行全面的代码分析，并针对大型代码库提出改进建议。战略规划 (Strategic Planning): 制定详细的计划，并根据具体的任务需求选择合适的 AI 模型。文档分析 (Document Analysis): 处理非结构化文档，并识别多个来源之间的模式和关联。信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据，非常适合 RAG 系统。歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令，并在需要时主动寻求澄清，而不是直接进行猜测。上下文和成本在使用推理模型时，至关重要的是在上下文窗口中保持足够的空间，以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token，而复杂的挑战可能需要数万个 Token。...

DeepSeek 官方推荐：Deepseek-R1 模型要这样设置

DeepSeek 官方发文：“很高兴看到每个人都对部署 DeepSeek-R1 的热情！这是我们推荐的设置，以获得最佳体验。"。总结下来，官方推荐如下四点核心设置： 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中，我们没有使用系统提示，而是专门设计了两个提示，分别用于文件上传和网页搜索，以优化用户体验。此外，网站与应用中的温度设置为 0.6。对于文件上传的 prompt 请按照模板创建提示词，其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中，每个结果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文，请列出所有相关的引用编号，例如[citation:3][citation:5]，切记不要将引用集中在最后返回引用编号，而是在答案对应部分列出。在回答时，请注意以下几点： - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关，你需要结合问题，对搜索结果进行甄别、筛选。 - 对于列举类的问题（如列举所有航班信息），尽量将答案控制在10个要点以内，并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项；如非必要，不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题（如写论文），请务必在正文的段落中引用对应的参考编号，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解读并概括用户的题目要求，选择合适的格式，充分利用搜索结果并抽取重要信息，生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长，对于每一个要点的论述要推测用户的意图，给出尽可能多角度的回答要点，且务必信息量大、论述详尽。 - 如果回答很长，请尽量结构化、分段落总结。如果需要分点作答，尽量控制在5个点以内，并合并相关的内容。 - 对于客观类的问答，如果问题的答案非常简短，可以适当补充一到两句相关信息，以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式，确保可读性强。 - 你的回答应该综合多个相关网页来回答，不能重复引用一个网页。 - 除非用户要求，否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为： {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

DeepSeek R1 本地部署的硬件需求与实战指南

最近很多朋友都咨询我怎么在自己的电脑上部署 deepseek r1，我很好奇为啥大家都要在自己 PC 上部署模型，而不是直接使用 DeepSeek 官网提供的网页或 app 版本，有的人告诉我是因为好奇，有的人是为了蹭一蹭热点，有的人说是为了显得牛逼，有的人说 DeepSeek 官网不稳定等等，反正各有各的原因。但我觉得对于个人而言，如果不是因为隐私或机密数据不能对外共享，其实使用本地部署的模型意义不大，而本地PC 能部署的模型参数很小，只有 1.5B、7B、8B、14B、32B、70B 这几个蒸馏版本，能力和满血版 deepseek-r1 671B 的模型能力相差甚远。但鉴于这些朋友不是从事 AI 相关工作，我都会给每个人科普一下以上这些信息，并列出 DeepSeek-R1 论文中给的各个模型的对比评测结果，最后给出一些本地部署蒸馏的小模型的指南。在这里我也把整理的内容分享给大家，有需要可自取。评测结果满血版的 deepseek-r1 671B 的模型评测结果从上面结果可以看出来，DeepSeek-R1 的能力水平和 OpenAI 的 openai-o1-1217 版本能力相当，甚至有些评测集上要更好。这里我也解释一下上面横轴上的不同评测集的含义： AIME 测试集 2024 是指 2024 年的美国数学邀请赛（American Invitational Mathematics Examination），这是一项针对高中生的数学竞赛，旨在选拔优秀学生进入更高级别的数学竞赛。在人工智能领域，AIME 2024 的试题被用作评估大型语言模型（LLM）数学推理能力的基准数据集。另外，AIME（美国数学邀请赛）共有15道填空题，答案为0到999之间的整数。题目难度呈递增趋势，前5题相对简单，难度与AMC10/12相近，后10题难度逐渐增加，考察学生的数学综合应用和计算能力。 Codeforces 评测集 Codeforces是一个知名的在线编程竞赛平台，汇集了大量高质量的编程题目和用户提交的解决方案。由于其题目多样性和挑战性，研究人员常将 Codeforces 的题目用作评估大型语言模型（LLM）编程和推理能力的基准数据集。 GPQA Diamond 评测集 GPQA Diamond 是一个专门设计用于评估大型语言模型（LLM）在需要深度推理和领域专业知识问题上的能力的基准数据集。该数据集由纽约大学、CohereAI 和 Anthropic 的研究人员联合发布，旨在衡量模型在需要深度推理和领域专业知识问题上的能力。GPQA Diamond 数据集包含 198 道高难度的问答题，主要涵盖物理、化学、生物学和经济学等 STEM 领域。所有问题及其答案都经过领域专家的验证，确保准确性和完整性。这些问题设计为对抗性构建，防止模型依赖表面模式或记忆，强调深度理解和多步骤推理能力。在评估中，模型需要生成准确且完整的答案，主要评估指标为准确率。GPQA Diamond 为研究人员提供了一个具有挑战性的基准，用于评估和改进大型语言模型在复杂推理任务中的表现。 MATH-500 评测集 MATH-500 是一个包含 500 道数学题目的评测集，旨在全面考察大型语言模型（LLM）的数学解题能力。该评测集涵盖了多种数学主题，设计用于评估模型在数学推理和问题解决方面的表现。...