2025 年 12 月 1 号,DeepSeek 正式开源 DeepSeek V3.2 系列模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,该系列模型架构仍然沿用 DeepSeek 的 V3 架构(拥有 671B 总参数/37B 激活参数)。

DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。
DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro(见下表)。
更令人瞩目的是,V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。
Tips:在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。

思考融入工具调用
不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2 是 DeepSeek 推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。DeepSeek 团队提出了一种大规模 Agent 训练数据合成方法,构造了大量「难解答,易验证」的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。

DeepSeek-V3.2 模型在以上 Agent 评测中达到了当前开源模型的 SOTA。
当前在思考模式下,模型能够经过多轮的思考 + 工具调用,最终给出更详尽准确的回答。下图为思考模式下进行工具调用的 API 请求示意图:

在回答问题 1 过程中(请求 1.1 - 1.3),模型进行了多次思考 + 工具调用后给出答案。在这个过程中,用户需回传思维链内容(reasoning_content)给 API,以让模型继续思考。
在下一个用户问题开始时(请求 2.1),需删除之前的思维链,并保留其它内容发送给 API。
Claude Code 适配
DeepSeek-V3.2 的思考模式也增加了对 Claude Code 的支持,用户可以通过将模型名改为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键开启思考模式进行使用。但需要注意的是,思考模式未充分适配 Cline、RooCode 等使用非标准工具调用的组件,我们建议用户在使用此类组件时继续使用非思考模式。
第三方评测结果
Artifical Analysis 对 DeepSeek V3.2 模型的评测结果,先说结论:
DeepSeek V3.2 智能谁品得分 66,仅次于开源模型的 SOTA Kimi K2 Thinking的 67 分,并优于闭源模型 Grok 4 (65)、Grok 4.1 Fast (推理模式, 64) 和 Claude Sonnet 4.5 (Thinking, 63)。
在非推理模式下,DeepSeek V3.2 在 Artificial Analysis 智能指数上得分为 52(对比 V3.2-Exp +6 分),是排名第三的智能非推理模型。
DeepSeek V3.2-Speciale 目前在 Artificial Analysis 智能指数上的得分 (59) 低于 V3.2 (推理模式, 66),因为 DeepSeek 的官方 API 尚未支持该模型的工具调用。
DeepSeek V3.2 的幻觉率相比上个版本有明显改善,DeepSeek V3.2-Speciale 是 Artificial Analysis Omniscience 指数中排名最高的开放权重模型。
原文翻译如下:
DeepSeek V3.2 是排名第二的智能开放权重模型,同时也领先于 Grok 4 和 Claude Sonnet 4.5 (Thinking) —— 它将 DeepSeek 稀疏注意力(Sparse Attention)移出了“实验性”状态,并结合了智力的实质性提升。
@deepseek_ai V3.2 在 Artificial Analysis 智能指数上得分为 66;相较于 2025 年 9 月发布的 DeepSeek V3.2-Exp(+9 分),智力有显著提升。DeepSeek 已将其主要 API 端点切换至 V3.2,价格与 V3.2-Exp 保持不变——这使得价格仅为每百万输入/输出 token $0.28/$0.42,缓存输入 token 可享 90% 折扣。
自大约 11 个月前,即 2024 年 12 月下旬发布最初的 DeepSeek V3 以来,DeepSeek 的 V3 架构(拥有 6710 亿总参数/370 亿激活参数)见证了它们在 Artificial Analysis 智能指数中的得分从 32 分提高到 66 分。
DeepSeek 还发布了 V3.2-Speciale,这是一种纯推理变体,能力增强但 token 使用量显著增加。这是推理模型中常见的权衡,增强的推理通常会带来更高的智能得分和更多的输出 token。V3.2-Speciale 可在 12 月 15 日前通过 DeepSeek 的官方 API 使用。
V3.2-Speciale 目前在 Artificial Analysis 智能指数上的得分 (59) 低于 V3.2 (推理模式, 66),因为 DeepSeek 的官方 API 尚未支持该模型的工具调用。如果 V3.2-Speciale 在启用工具调用的情况下达到 V3.2 的 tau2 得分 (91%),它在智能指数上的得分将约为 68,从而使其成为最智能的开放权重模型。V3.2-Speciale 运行 Artificial Analysis 智能指数使用了 1.6 亿个输出 token,几乎是 V3.2 在推理模式下使用 token 数量的 2 倍。
DeepSeek V3.2 使用了与 V3.2-Exp 相同的架构,后者引入了 DeepSeek 稀疏注意力 (DSA) 以减少长上下文推理所需的计算量。我们的长上下文推理基准测试表明,引入 DSA 并未造成智力上的损失。DeepSeek 通过下调其官方 API 的价格反映了 V3.2-Exp 的这一成本优势,从每百万输入/输出 token $0.56/$1.68 降至 $0.28/$0.42——即输入和输出 token 的价格分别降低了 50% 和 75%。
关键基准测试要点:
➤ DeepSeek V3.2:在推理模式下,DeepSeek V3.2 在 Artificial Analysis 智能指数上得分为 66,排名与 Kimi K2 Thinking (67) 相当,并领先于 Grok 4 (65)、Grok 4.1 Fast (推理模式, 64) 和 Claude Sonnet 4.5 (Thinking, 63)。它在工具使用、长上下文推理和编码方面表现出相较于 V3.2-Exp (57) 的显著提升。
➤ DeepSeek V3.2-Speciale:V3.2-Speciale 在我们需要智能指数的 10 项基准测试中,有 7 项得分高于 V3.2 (推理模式)。V3.2-Speciale 目前在所有模型中分别获得了 AIME25 (97%) 的最高分和 LiveCodeBench (90%) 的第二高分。然而,如上所述,DeepSeek 针对 V3.2-Speciale 的官方 API 不支持工具调用,该模型在 tau2 基准测试中得分为 0。
➤ 幻觉与知识:DeepSeek V3.2-Speciale 和 V3.2 是 Artificial Analysis 全知指数 (Omniscience Index) 上排名最高的开放权重模型,得分分别为 -19 和 -23。来自 Google、Anthropic、OpenAI 和 xAI 的专有模型通常在该指数中领先。
➤ 非推理性能:在非推理模式下,DeepSeek V3.2 在 Artificial Analysis 智能指数上得分为 52(对比 V3.2-Exp +6 分),是排名第三的智能非推理模型。DeepSeek V3.2 (非推理模式) 匹配 DeepSeek R1 0528 的智力水平,后者是 2025 年 5 月的前沿推理模型,凸显了今年通过预训练和强化学习 (RL) 改进所实现的快速智力增长。
➤ Token 效率:在推理模式下,DeepSeek V3.2 运行 Artificial Analysis 智能指数使用的 token 比 V3.2-Exp 多(从 6200 万增加到 8600 万)。非推理变体的 token 使用量保持相似。V3.2-Speciale 表现出显著更高的 token 使用量,使用了约 1.6 亿输出 token,超过了 Kimi K2 Thinking (1.4 亿) 和 Grok 4 (1.2 亿)。
➤ 定价:DeepSeek 尚未更新其官方 API 的每 token 定价,所有三个变体均以每百万输入/输出 token $0.28/$0.42 的价格提供。
其他模型详情: ➤ 许可:DeepSeek V3.2 基于 MIT 许可证提供。 ➤ 可用性:DeepSeek V3.2 可通过 DeepSeek API 获取,该 API 已取代 DeepSeek V3.2-Exp。用户可在 12 月 15 日前通过临时的 DeepSeek API 访问 DeepSeek V3.2-Speciale。鉴于此次发布中的智力提升,我们预计许多第三方提供商很快就会提供该模型。 ➤ 规模:DeepSeek V3.2 Exp 拥有 6710 亿总参数和 370 亿激活参数。这与 DeepSeek V3 和 R1 系列中的所有先前模型相同。

