DeepSeek

DeepSeek-R1-0528 发布：推理与理解能力显著增强，性能逼近顶尖模型

昨天（2025.5.28）DeepSeek 在官方交流群中直接发布消息，宣布 R1 模型已完成小版本试升级，并将模型权重开源到 HugggingFace，直到今晚才正式发布新闻稿，并更新模型卡相关内容。本次模型更新内容当前版本是 DeepSeek-R1-0528。在最新的更新中，相比上个版本主要更新有： 1️⃣ 通过利用增加的计算资源并在后训练阶段引入算法优化机制，显著提升了模型的推理和理解能力。这款模型在数学、编程和通用逻辑等多种基准测试中展现了卓越的性能。它的整体表现已经接近顶尖模型，例如 O3 和 Gemini 2.5 Pro。 2️⃣ 与之前的版本相比，升级后的模型在处理复杂推理任务时有了显著进步。比如在 AIME 2025 测试中，模型的准确率从之前版本的 70% 提升到了当前版本的 87.5%。这一提升得益于模型在推理过程中“思考”得更深入了：在 AIME 测试集上，之前的模型平均每个问题花费 12K tokens 进行思考，而新版本平均每个问题会花费 23K tokens。 2️⃣ 降低了生成“幻觉”（即不真实信息）的概率 3️⃣ 增强了对函数调用的支持 4️⃣ 优化了“写代码”（vibe coding）的体验。 5️⃣ 它的整体性能现在接近 O3 和 Gemini 2.5 Pro 等领先模型。 6️⃣ 再次基于 Qwen 模型蒸馏出了更强模型，将 DeepSeek-R1-0528 生成的思维链（chain-of-thought）提取出来，用于进一步训练 Qwen3 8B Base 模型，从而得到了 DeepSeek-R1-0528-Qwen3-8B。这款模型在 AIME 2024 上取得了开源模型的最佳性能（SOTA），比 Qwen3 8B 高出 10.0%，并达到了 Qwen3-235B-thinking 的水平。DeepSeek-R1-0528-Qwen3-8B 的模型架构与 Qwen3-8B 相同，但它使用了与 DeepSeek-R1-0528 相同的分词器配置。这款模型可以按照运行 Qwen3-8B 的方法在本地运行。...

如何高效使用 DeepSeek-R1 这种推理模型？

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！我看了下其中有一些内容很好，翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些 Token 被包含在 <think> 标签中，以及最终的答案。由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力，因此它们的输出通常更长，计算速度也更慢，成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果推理模型（如 deepseek-r1、o1、o3-mini等）擅长根据已知信息进行逻辑推理和问题求解，而非推理模型（deepseek-v3、gpt-4o、claude-3.5-sonnet等）则更侧重于信息检索和模式匹配。下面我们提供一份指南，帮助你充分发挥 DeepSeek-R1 的性能：清晰且具体的提示语 (prompts)：使用简洁明了的语言编写指令，明确表达你的需求。复杂冗长的提示语往往效果不佳。采样参数：建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6)，以避免模型产生重复或不连贯的输出。同时，top-p (概率截断) 建议设置为 0.95。避免使用系统提示 (system prompt)：不要添加额外的系统提示语，所有指令都应包含在用户提示语中。避免使用少量样本提示 (few-shot prompting)：不要在提示语中提供任何示例，因为这会降低模型的性能。相反，请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例，请确保示例与你的提示语要求高度一致。组织你的提示语：使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。设置明确的要求：当你的请求存在特定限制或标准时，请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。无论是预算限制、时间限制还是特定的格式要求，都应清晰地概述这些参数，以便引导模型生成符合要求的回复。清晰地描述输出：详细描述你期望的输出结果。描述具体的特征或质量，以便模型生成完全符合你需求的响应，并朝着满足这些标准的方向努力。多数投票选择回复：在评估模型性能时，建议生成多个解决方案，然后选择出现频率最高的结果。避免使用思维链提示 (chain-of-thought prompting)：由于这类模型在回答问题之前会自主进行推理，因此无需指示它们“逐步思考……” 数学任务：对于数学问题，建议在提示语中添加如下指令：“请逐步进行逻辑推理，并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签：极少数情况下，DeepSeek-R1 可能会跳过思考过程，从而对模型性能产生负面影响。在这种情况下，模型输出的响应将不会以 <think> 标签开头。如果你遇到此问题，可以尝试引导模型以 <think> 标签开头。应用场景评估其他大语言模型 (Benchmarking other LLMs): 评估大语言模型响应的上下文理解能力，这在需要严格验证的领域（如法律、金融和医疗保健）中尤为重要。代码审查 (Code Review): 执行全面的代码分析，并针对大型代码库提出改进建议。战略规划 (Strategic Planning): 制定详细的计划，并根据具体的任务需求选择合适的 AI 模型。文档分析 (Document Analysis): 处理非结构化文档，并识别多个来源之间的模式和关联。信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据，非常适合 RAG 系统。歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令，并在需要时主动寻求澄清，而不是直接进行猜测。上下文和成本在使用推理模型时，至关重要的是在上下文窗口中保持足够的空间，以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token，而复杂的挑战可能需要数万个 Token。...

DeepSeek 官方推荐：Deepseek-R1 模型要这样设置

DeepSeek 官方发文：“很高兴看到每个人都对部署 DeepSeek-R1 的热情！这是我们推荐的设置，以获得最佳体验。"。总结下来，官方推荐如下四点核心设置： 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中，我们没有使用系统提示，而是专门设计了两个提示，分别用于文件上传和网页搜索，以优化用户体验。此外，网站与应用中的温度设置为 0.6。对于文件上传的 prompt 请按照模板创建提示词，其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中，每个结果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文，请列出所有相关的引用编号，例如[citation:3][citation:5]，切记不要将引用集中在最后返回引用编号，而是在答案对应部分列出。在回答时，请注意以下几点： - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关，你需要结合问题，对搜索结果进行甄别、筛选。 - 对于列举类的问题（如列举所有航班信息），尽量将答案控制在10个要点以内，并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项；如非必要，不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题（如写论文），请务必在正文的段落中引用对应的参考编号，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解读并概括用户的题目要求，选择合适的格式，充分利用搜索结果并抽取重要信息，生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长，对于每一个要点的论述要推测用户的意图，给出尽可能多角度的回答要点，且务必信息量大、论述详尽。 - 如果回答很长，请尽量结构化、分段落总结。如果需要分点作答，尽量控制在5个点以内，并合并相关的内容。 - 对于客观类的问答，如果问题的答案非常简短，可以适当补充一到两句相关信息，以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式，确保可读性强。 - 你的回答应该综合多个相关网页来回答，不能重复引用一个网页。 - 除非用户要求，否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为： {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件，部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观，我做了一个网页版，大家可自行取用。 2023年7月：DeepSeek 公司成立核心功能：致力于 AGI 功能介绍：由知名量化资管巨头幻方量化创立，其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月：开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型核心功能：DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。功能介绍：DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型，它旨在提升代码编写的效率和质量，MIT 许可并允许商业用途。项目地址：https://github.com/deepseek-ai/DeepSeek-LLM 论文地址：https://arxiv.org/abs/2401.02954 论文摘要本文深入研究了大规模语言模型（LLMs）的扩展规律，并针对两种常用的开源配置 7B 和 67B 模型，提出了独特的发现，以促进模型扩展。研究团队基于长期主义视角，推出了开源语言模型项目 DeepSeek LLM。为了支持预训练，他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调（SFT）和直接偏好优化（DPO），最终得到了 DeepSeek Chat 模型。评估结果表明，DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B，尤其在代码、数学和推理领域表现突出。此外，开放性评估显示，DeepSeek LLM 67B Chat 的性能优于 GPT-3....

幻方量化、DeepSeek 与创始人梁文锋

2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火，同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首，甚至一度让英伟达的股价暴跌 17%，核心原因有两点：模型权重和技术细节完全公开，可复现； R1 的能力水平与 OpenAI 的 o1 相媲美，但通过创新算法和优化训练流程其成本仅为o1的3%-5%，训练成本仅为560万美元。 DeepSeek R1 的发布引爆了硅谷，在其发布一周后，微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评，有的大为赞赏，有的阴阳怪气，如 OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻，尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型，而且看到新的竞争者加入也真的令人鼓舞！我们将很快发布一些新成果。"，果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。 OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。 Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步，实际上是在预期的 AI 成本降低趋势之内，而非颠覆性的突破。尽管中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展，但这非但没有削弱，反而更加强调了美国对华芯片出口管制的重要性”。 Groq 联合创始人兼 CEO Jonathan Ross 表示：“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2....

DeepSeek-R1 的训练过程是怎样的？• Epoch AI

本文由 Epoch AI 官方发布，主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价，并对围绕其训练成本的争议进行了分析。文章的核心观点包括： DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3，后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的，并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来，RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当，但价格却显著低于 o1，使其在性价比上更具优势。尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室，但其模型以接近边际成本的价格提供服务，对用户来说更具吸引力。关键细节架构： DeepSeek-R1 的架构与 DeepSeek v3 完全相同，采用稀疏混合专家模型 (MoE)，总参数量为 6710 亿，但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制，以降低 KV 缓存大小，同时保持性能。预训练 (DeepSeek v3)： DeepSeek v3 的预训练使用了混合精度 FP8，在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....

关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大，从 1 月 20 号开源到现在已经一周多了，国内外社交媒体上仍然在讨论，热度不减，同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首，离谱的是甚至让英伟达的股价暴跌了 17%，原因是 R1 的能力水平与 OpenAI 的 o1 相媲美，但成本仅为o1的3%-5%，训练成本仅为560万美元。投资者担心，DeepSeek的突破可能会减少对英伟达高端GPU的需求，从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论（酸一下），可见其影响力之大。本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是，尽管中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展，但这非但没有削弱，反而更加强调了美国对华芯片出口管制的重要性。作者认为，出口管制是确保民主国家在 AI 发展中保持领先地位，并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步，实际上是在预期的 AI 成本降低趋势之内，而非颠覆性的突破，因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展： DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型，在某些任务上性能接近美国最先进的模型，且训练成本更低，这主要归功于其在工程效率上的创新，例如改进了 Key-Value cache 管理和 mixture of experts 方法。然而，DeepSeek-V3 的性能仍落后于某些美国模型（如 Claude 3.5 Sonnet），且其成本降低幅度与 AI 领域正常的成本下降趋势（约每年 4 倍）基本一致，并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习（RL）训练阶段，类似于 OpenAI 的 o1 模型，表明多家公司在推理模型方面都取得了进展，但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态：理解 AI 发展需要关注三个动态。 Scaling laws，即模型训练规模越大，性能越好。 Shifting the curve，指算法和硬件的进步不断提高训练效率，降低成本。作者估计，目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm，指训练范式的转变，例如从预训练模型到使用强化学习训练推理模型，这会带来新的扩展机会和性能提升。出口管制的重要性：尽管 AI 模型训练成本在降低，但为了追求更强大的 AI，总体的研发投入仍在持续增加。作者预测，到 2026-2027 年，实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。出口管制是阻止中国获得大量先进芯片，从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中，中国可能集中资源发展军事 AI，从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”，即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据： DeepSeek 拥有相当数量的芯片（约 5 万片 Hopper 架构芯片），因此能够训练出高性能模型并不意外。出口管制的目的不是阻止中国获得少量芯片，而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型（包括 H100、H800 和 H20）表明，出口管制在一定程度上是有效的，中国可能通过走私和利用管制漏洞获取部分芯片，但也面临着获取最先进芯片和大规模芯片的限制。加强和完善出口管制，仍然是阻止中国在 AI 领域取得决定性优势的关键。原文几周前，我撰文指出，美国应该对出口到中国的芯片实施更严格的管制。此后，中国的人工智能公司 DeepSeek 设法在某些方面，至少在某些特定基准测试上，在性能上逼近了美国最先进的 AI 模型，而且成本更低。我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反，我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上，我认为这些发布使得出口管制政策比一周前更加至关重要2。出口管制的一个重要作用是：确保民主国家在 AI 发展中保持领先地位。需要明确的是，出口管制不是为了逃避美国和中国之间的竞争。最终，如果想要在竞争中获胜，美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是，我们不应该在不必要的情况下，将技术优势拱手让给中国共产党。 AI 发展的三个关键动态在阐述我的政策观点之前，我想先描述 AI 系统的三个基本动态，理解这些动态至关重要：缩放定律 (Scaling laws)。我和我的联合创始人在 OpenAI 工作时，是最早记录 AI 这一特性的：在所有条件相同的情况下，扩大 AI 系统的训练规模，通常会在各种认知任务上带来更平滑、更好的结果。例如，一个价值 100 万美元的模型可能解决 20% 的重要编码任务，一个价值 1000 万美元的模型可能解决 40%，一个价值 1 亿美元的模型可能解决 60%，以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此，各公司都在大力投资训练这些模型。曲线的改变 (Shifting the curve)。该领域不断涌现出各种各样的创新想法，从而提高效率：例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ，或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会改变缩放曲线：如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM)，那么你就可以用 500 万美元而不是 1000 万美元的成本，在编码任务上获得 40% 的性能；或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM：小的 (约 1....