如何高效使用 DeepSeek-R1 这种推理模型?

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!我看了下其中有一些内容很好,翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。 对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在 <think> 标签中,以及最终的答案。 由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力,因此它们的输出通常更长,计算速度也更慢,成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果 推理模型(如 deepseek-r1、o1、o3-mini等)擅长根据已知信息进行逻辑推理和问题求解,而非推理模型(deepseek-v3、gpt-4o、claude-3.5-sonnet等)则更侧重于信息检索和模式匹配。下面我们提供一份指南,帮助你充分发挥 DeepSeek-R1 的性能: 清晰且具体的提示语 (prompts): 使用简洁明了的语言编写指令,明确表达你的需求。复杂冗长的提示语往往效果不佳。 采样参数: 建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6),以避免模型产生重复或不连贯的输出。同时,top-p (概率截断) 建议设置为 0.95。 避免使用系统提示 (system prompt): 不要添加额外的系统提示语,所有指令都应包含在用户提示语中。 避免使用少量样本提示 (few-shot prompting): 不要在提示语中提供任何示例,因为这会降低模型的性能。相反,请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例,请确保示例与你的提示语要求高度一致。 组织你的提示语: 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。 这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。 设置明确的要求: 当你的请求存在特定限制或标准时,请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。 无论是预算限制、时间限制还是特定的格式要求,都应清晰地概述这些参数,以便引导模型生成符合要求的回复。 清晰地描述输出: 详细描述你期望的输出结果。 描述具体的特征或质量,以便模型生成完全符合你需求的响应,并朝着满足这些标准的方向努力。 多数投票选择回复: 在评估模型性能时,建议生成多个解决方案,然后选择出现频率最高的结果。 避免使用思维链提示 (chain-of-thought prompting): 由于这类模型在回答问题之前会自主进行推理,因此无需指示它们“逐步思考……” 数学任务: 对于数学问题,建议在提示语中添加如下指令:“请逐步进行逻辑推理,并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签: 极少数情况下,DeepSeek-R1 可能会跳过思考过程,从而对模型性能产生负面影响。 在这种情况下,模型输出的响应将不会以 <think> 标签开头。 如果你遇到此问题,可以尝试引导模型以 <think> 标签开头。 应用场景 评估其他 大语言模型 (Benchmarking other LLMs): 评估 大语言模型 响应的上下文理解能力,这在需要严格验证的领域(如法律、金融和医疗保健)中尤为重要。 代码审查 (Code Review): 执行全面的代码分析,并针对大型代码库提出改进建议。 战略规划 (Strategic Planning): 制定详细的计划,并根据具体的任务需求选择合适的 AI 模型。 文档分析 (Document Analysis): 处理非结构化文档,并识别多个来源之间的模式和关联。 信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据,非常适合 RAG 系统。 歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令,并在需要时主动寻求澄清,而不是直接进行猜测。 上下文和成本 在使用推理模型时,至关重要的是在上下文窗口中保持足够的空间,以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token,而复杂的挑战可能需要数万个 Token。...

February 20, 2025 · 1 min · fisherdaddy

DeepSeek 官方推荐:Deepseek-R1 模型要这样设置

DeepSeek 官方发文:“很高兴看到每个人都对部署 DeepSeek-R1 的热情!这是我们推荐的设置,以获得最佳体验。"。 总结下来,官方推荐如下四点核心设置: 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中,我们没有使用系统提示,而是专门设计了两个提示,分别用于文件上传和网页搜索,以优化用户体验。此外,网站与应用中的温度设置为 0.6。 对于文件上传的 prompt 请按照模板创建提示词,其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。 中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。 在回答时,请注意以下几点: - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。 - 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题(如写论文),请务必在正文的段落中引用对应的参考编号,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解读并概括用户的题目要求,选择合适的格式,充分利用搜索结果并抽取重要信息,生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长,对于每一个要点的论述要推测用户的意图,给出尽可能多角度的回答要点,且务必信息量大、论述详尽。 - 如果回答很长,请尽量结构化、分段落总结。如果需要分点作答,尽量控制在5个点以内,并合并相关的内容。 - 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式,确保可读性强。 - 你的回答应该综合多个相关网页来回答,不能重复引用一个网页。 - 除非用户要求,否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为: {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

February 15, 2025 · 3 min · fisherdaddy

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件,部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2023年7月:DeepSeek 公司成立 核心功能:致力于 AGI 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 核心功能:DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。 功能介绍:DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。 项目地址:https://github.com/deepseek-ai/DeepSeek-LLM 论文地址:https://arxiv.org/abs/2401.02954 论文摘要 本文深入研究了大规模语言模型(LLMs)的扩展规律,并针对两种常用的开源配置 7B 和 67B 模型,提出了独特的发现,以促进模型扩展。研究团队基于长期主义视角,推出了开源语言模型项目 DeepSeek LLM。为了支持预训练,他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调(SFT)和直接偏好优化(DPO),最终得到了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出。此外,开放性评估显示,DeepSeek LLM 67B Chat 的性能优于 GPT-3....

February 8, 2025 · 10 min · fisherdaddy

幻方量化、DeepSeek 与创始人梁文锋

2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,甚至一度让英伟达的股价暴跌 17%,核心原因有两点: 模型权重和技术细节完全公开,可复现; R1 的能力水平与 OpenAI 的 o1 相媲美,但通过创新算法和优化训练流程其成本仅为o1的3%-5%,训练成本仅为560万美元。 DeepSeek R1 的发布引爆了硅谷,在其发布一周后,微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评,有的大为赞赏,有的阴阳怪气,如 OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻,尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型,而且看到新的竞争者加入也真的令人鼓舞!我们将很快发布一些新成果。",果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。 OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。 Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破。尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性”。 Groq 联合创始人兼 CEO Jonathan Ross 表示:“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2....

February 2, 2025 · 2 min · fisherdaddy

DeepSeek-R1 的训练过程是怎样的?• Epoch AI

本文由 Epoch AI 官方发布,主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价,并对围绕其训练成本的争议进行了分析。文章的核心观点包括: DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3,后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的,并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来,RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当,但价格却显著低于 o1,使其在性价比上更具优势。 尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室,但其模型以接近边际成本的价格提供服务,对用户来说更具吸引力。 关键细节 架构: DeepSeek-R1 的架构与 DeepSeek v3 完全相同,采用稀疏混合专家模型 (MoE),总参数量为 6710 亿,但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制,以降低 KV 缓存大小,同时保持性能。 预训练 (DeepSeek v3): DeepSeek v3 的预训练使用了混合精度 FP8,在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....

February 1, 2025 · 5 min · fisherdaddy

关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy