本文翻译自 GDP(@bookwormengr)发布在 X 上的文章《DeepSeek’s 10 trillion USD grand strategy》。本文完全由有道龙虾翻译、排版和发布。
你有没有想过,DeepSeek 可能如何赚钱,而且赚很多钱?
他们没有像 GLM、MoonShot 和 MiniMax 那样推出有竞争力的编程套餐。他们没有多模态、音频、视频模型。到目前为止,他们也没有一个 harness(他们最近才开始招聘来构建 harness)。DeepSeek 还长期致力于开源,并且非常乐于分享自己的“秘方”。这是疯狂吗?这是纯粹浪费钱吗?那些准备向他们投资 100 亿美元的投资人,是在把钱倒进下水道吗?
不,恰恰相反,至少在我看来是这样!
这里我会介绍我对 DeepSeek 迄今所做事情的观察,以及他们似乎正在遵循的一项战略。DeepSeek CEO 梁文锋的目光似乎盯着一个更大的奖项:他们可能实现 1 万亿美元估值,同时帮助创造一个 10 万亿美元规模的产业。
TechInAsia 关于 DeepSeek 最新融资轮的新闻
重新审视 DeepSeek 的英雄之旅
DeepSeek 一直逆风而行。他们没有选择不断构建略微更好的模型,然后急着销售即时应用,比如编程套餐。
我在 2025 年 1 月 27 日写过一条爆火推文,谈我眼中的“DeepSeek 英雄之旅”。这个故事现在变得更加有趣了。
- 当人们还在尝试构建 dense models 时,DeepSeek 选择了更难训练的专家混合模型(MoE)。
- 他们采用“第一性原理”方法,发明了新的 GRPO 算法,用来替代强化学习(RL)中占主导地位、实现成本更高的 PPO 算法。
- 他们发现了基于可验证奖励的强化学习(RLVR),将其作为提升模型推理能力的关键策略。
- 他们提出了通过“多 Token 预测”实现投机解码的简单策略,同时也让训练信号更密集。
- 他们完善了“零气泡”流水线,以提高有限 GPU 资源的使用效率。
- 他们发布了专家负载均衡器,让大家更容易部署专家混合模型。尤其是通过“宽专家并行”策略,模型可以更经济地服务,因为可以使用更大的 batch。
- 他们发明了 MLA、DSA、CSA、HCA,以降低 KV Cache 需求,并让随着上下文增长而增加的计算需求接近恒定。
- 他们发明了 Engram,用内存换计算。
- 他们发明了 mHC,以实现随着模型规模增长而稳定训练。这个清单还在继续……
在“英雄之旅”这种最普遍的故事结构中,英雄从来不会一开始就决定自己的旅程是什么。他会边走边学,逐渐发现自己的伟大使命,并在重重阻碍下完成它。他会遇到许多诋毁者,但会无视他们。他会遇到许多恶意行为者。他有巨大的缺陷或短板,但会克服它们来完成使命。他会面对看似无法逾越的挑战,但会想办法结盟,并明智地使用珍贵资源。
这正是让观众支持英雄的原因。这也是 DeepSeek 赢得粉丝追随、全球尊重,以及招致诋毁者的原因。
正如我将详细说明的,DeepSeek 已经在这条路上走了足够久,并发现了终极命运:不是销售编程套餐,而是推动一个 10 万亿美元规模的中国 AI 硬件生态,并为自身实现 1 万亿美元估值。在这个过程中,他们也会帮助西方硬件生态中的许多新进入者。
欢迎评论和批评:@naval、@teortaxesTex、@jukan05、@bubbleboi、@poezhao0605、@hsu_steve、@tphuang。
从一些有趣的 KV Cache 计算开始
请读一下 @SemiAnalysis_ 最近这条非常及时的推文:
DeepSeek 已经比任何人都更好地解决了这个问题!
我们先做一些有趣的 KV Cache 数学。如果你不喜欢数学也不用担心。我们会使用最近发布的 KV Cache 计算器,看看 DeepSeek V4 Pro 带来的 KV Cache 节省,并将其与最新的 GLM 和 Qwen 模型比较。
我按 100 万上下文计算。我假设 KV 精度为 8 bit,索引器精度为 16 bit。你可以自己玩这个计算器:https://kvcache.ai/tools/kv-cache-calculator/
对于 100 万上下文:
- DeepSeek V4 只需要 5.48GB HBM。
- GLM5 需要 60GB HBM。
- Qwen3-235B-A22B 需要惊人的 89GB HBM。
请注意:
- DeepSeek 是 1.6T 参数模型。
- GLM5 大约是 700B 参数,并且已经使用了 DeepSeek 的 MLA 和 DSA,虽然还没有使用最新的压缩注意力。
- Qwen3-235B-A22B 大约是 235B 参数,使用 GQA attention。
DeepSeek 在缓解内存压力方面做出了基础性贡献。如果这项创新被广泛采用,它可以让长程 agent 变得非常经济,并解锁下一批使用场景。
100 万 token 和模型规模下的 KV Cache 占用对比
疯狂背后的方法
这种极小的 KV Cache,在不牺牲质量的情况下,是他们能够以极低价格提供长时间保留缓存的原因。这个价格不到 Sonnet 4.6 cache hit 价格的 3%,而且他们会保留多个小时。
用于长程任务的小规模缓存,允许将其卸载到 SSD,并以很低成本重新加载。这降低了对 HBM 的需求,而从中国 AI 硬件产业角度看,HBM 是最短缺、也是最难制造的内存。DeepSeek 还开发了从 SSD 更快加载 KV Cache 的技术,相关内容见 Dual Path 论文。
他们新的 DeepSeek V4 将 KV Cache 压缩得如此之多,以至于这项技术可能都不再需要了。
谁是 KV Cache 压缩的直接受益者?
谁能大量供应 SSD?
别忘了,YMTC(长江存储)正在成为 3D NAND 巨头。NAND 让 DeepSeek 可以避免重新计算 KV。反过来,DeepSeek 又为 NAND 和 SSD 创造了一个巨大市场,不只是 YMTC 的市场,也是其他厂商的市场。
但这不只是 NAND 和 SSD 的问题
LPDDR 内存有很大潜力,可以作为存放权重的地方,并在需要时将权重流式传输到 HBM,从而降低 HBM 需求压力。
SGLang 团队发布过一篇很棒的博客。我下面用一张图解释这个方案如何运作。虽然 DeepSeek 并没有专门为此做什么,但他们的 MoE 架构、大量专家以及 4 bit 权重,使这个方案很容易实现。
内存如何使用,以及权重如何从 LPDDR 流式传输到 HBM 的示意图。强烈推荐阅读 SGLang 博客。
这项创新,再加上极其紧凑且无损的 KV Cache,显著降低了 HBM 需求。
中国谁生产 LPDDR?CXMT(长鑫存储)。他们在 LPDDR 速度上只落后半代,在密度上落后一代。并不远!
除了充足的 NAND,中国生态在不久的将来也会拥有充足的 LPDDR。
这能缓解计算压力吗?可以。继续看。
对内存的聪明使用,也会降低 GPU/ASIC 的压力
使用 NAND 存储 KV Cache 的逻辑很清楚:它可以更长时间保存 KV Cache,降低 HBM 压力,并帮助避免重新计算 KV Cache,从而减轻 GPU 和 ASIC 的计算压力。
那么 LPDDR 是否也能以类似方式帮忙,除了作为“即时”流式传输权重的地方之外?
答案是:可以。
LPDDR 支持存放大量所谓的“Engram”。在 Engram 论文中,DeepSeek 表明,虽然 MoE 通过条件计算扩展容量,但 Transformer 缺少一种原生的知识查找原语。它们被迫通过计算来低效模拟检索。
他们引入了 Engram:一个将经典 N-gram embedding 现代化为 O(1) 哈希查找的模块,创造了一个他们称为“条件记忆”的互补稀疏轴。
这节省了计算,但需要内存来承载 embedding 表,而这个表可能很大。这是典型的内存与计算之间的替代关系。但关键洞察是,“内存”这一侧按每 bit 检索成本来看要便宜得多,LPDDR 查找远比完整通过 Transformer 层做一次前向传播便宜。因此在规模化时,这是非常有利的权衡。
这就是他们如何通过用内存换计算来节省算力。
这种权衡非常值得:中国 GPU 和 ASIC 在原始 FLOPs 上将长期落后于西方 GPU,因为它们没有同等的 chiplet 晶体管密度(没有 EUV)。在封装方面也相当落后。
因此,这类权衡非常值得,尤其是当你能制造大量 NAND 和 LPDDR 内存时。
回顾 DeepSeek 的长期游戏
从所有这些创新来看,DeepSeek 的游戏似乎不是赚几亿美元的短期利润。考虑到他们做出的所有选择,没有多模态、没有语音模型、视频模型更不用说,他们玩的是一个耐心的 10 万亿美元游戏:推动替代性硬件生态。
这不仅是让中国内存厂商成为中国和全球 AI 硬件舞台上的关键玩家,也是在降低资源需求本身,让训练和服务 AI 模型更具成本效益。这会让许多 GPU、ASIC 和网络芯片厂商变成可行选项。
所有这些创新也会帮助西方开源生态以及新的硬件制造商。迹象都在那里。让我们详细回顾一下他们提出的所有创新:
- DeepSeek V2 中引入的专家混合(MoE)和 MLA。MoE 使训练非常智能的模型可以节省 40% 到 50% 的计算量。MLA 使 KV Cache 减少 90% 成为可能。这让将 KV Cache 卸载到 SSD 变得非常高效。这些想法来自他们 2024 年 5 月的 DeepSeek V2 论文。后来,这解锁了 DeepSeek V3 的训练。当时他们只用了 2048 块被削弱的 H800 GPU,就训练出了接近闭源水平的模型。
- DSA,在 DeepSeek V3.2 Exp 中引入,用来降低长上下文场景中的计算,并缓解 HBM 带宽压力。它确保计算不会随着上下文增长而增长。请看图表,DeepSeek-v3.2 的处理时间随着上下文长度增长仍然保持平稳。
- mHC,在 2025 年 12 月的论文《mHC: Manifold-Constrained Hyper-Connections》中提出。mHC 是 DeepSeek 的一种宏观架构创新,重新发明了 Transformer 层之间信息流动的方式。它不是使用自 ResNet 以来的标准残差连接(x + F(x)),而是将残差流扩展为多个并行的信息高速公路,并允许在它们之间进行学习到的混合。但关键是,它把混合矩阵约束为双随机矩阵,通过 Sinkhorn-Knopp 投影到 Birkhoff 多面体上,从数学上保证信号幅度在任意深度下都被保留。
- 这解决了非约束 Hyper-Connections 的灾难性不稳定问题。Hyper-Connections 最初由字节跳动发明,但在 27B 规模时信号放大爆炸到 3000 倍,导致训练完全崩溃。
- 计算成本很小:mHC 只增加 6.7% 的 wall-clock 训练开销,因为它不改变 attention 或 FFN 层的 FLOPs,只改变这些层输出在层间的路由方式。
- 性能收益却很明显:在 27B 参数规模下,mHC 在 BIG-Bench Hard 推理上提升 7.2 分,在 DROP 上提升 3.2 分,在 GSM8K 数学上提升 2.8 分,在 MMLU 通用知识上提升 1.4 分,而模型规模相同,计算预算几乎相同。
本质上,mHC 通过为网络提供更丰富、更有表现力的层间信息路由拓扑,在几乎不增加 FLOPs 的情况下,实现了每参数智能的显著提升。
mHC 是一种复杂架构,但它提供了优秀的训练稳定性和更高的单位参数智能。
- CSA、HSA,在 2026 年 4 月 DeepSeek V4 中引入,通过压缩 KV token 将 KV 需求再降低 90%,并大幅降低所需 FLOPs,从而同时缓解 HBM 和 GPU/ASIC 压力。
- Engram,在 2026 年第一季度引入,他们在某种程度上用内存(LPDDR)换计算。详细图表显示,在相同总体参数预算下,Engram 带来了性能提升。
- 对计算和通信重叠的极端关注,以及 Dual Path 等创新,可以解释为在资源约束下的应对方式。但 DeepSeek 更进一步,他们还向硬件供应商提供 ASIC 设计建议,确保他们不要浪费宝贵的硅资源。这来自 DeepSeek V4 论文。
这是他们在 DeepSeek V4 论文中分享的建议。我非常确定,他们在线下会分享更多反馈。
- 对 TileLang 的投资也指向同一个方向:他们不只是解决自己的算力短缺问题,而是在让中国硬件生态具备与西方生态竞争的能力。通过 TileLang,可以一次开发 kernel(计算代码),然后让它在多个拥有 TileLang 后端的硬件平台上成功运行。我预计其他中国实验室都会加入进来,帮助中国硬件厂商间接应对“CUDA 护城河”。这也会解锁更多西方硬件,比如 AMD。
注意:中国很多 AI 平台要么提供 CUDA 兼容性,要么提供 CUDA 转译层。摩尔线程、沐曦、壁仞和天数智芯等中国芯片通过转译层与 CUDA 最为兼容。理论上,它们并不需要 TileLang。
大规模 RL 和 RSI
随着可用计算增加(因为潜在硬件选项更多)以及计算需求降低,DeepSeek 可以承担更有野心的训练项目,尤其是 RL 后训练。
RL 涉及生成大量轨迹,即生成数万亿 token。它很快就会变得非常昂贵。此外,要训练 100 万上下文模型,你需要生成同样长度的轨迹。训练这类长轨迹模型,可以实现长程任务。
此外,DeepSeek 因硬件选项增加而拥有更多可用硬件,将推动自动化研究(RSI)。RSI 涉及 AI 自己设计并执行实验。这种方法有大量试错,成本会迅速上升。
然而,RSI 对探索整个设计空间非常重要。在 DeepSeek 迈向 AGI 乃至 ASI 之前,它需要具备 RSI 能力。
DeepSeek 今天做的事,行业明天会跟上
DeepSeek 围绕 MoE、MLA、DSA 的创新,已经被全球和中国其他 AI 实验室采用。
例如,ZAI,即 GLM 系列模型的制造者,使用了 MLA 和 DSA。Kimi(月之暗面)也采用了 MLA,并毫不犹豫地表示他们的架构基于 DeepSeek 的架构。
反过来,DeepSeek 使用了 Kimi(月之暗面)首次用于大规模训练的 Muon 优化器。
注:
- MoE 是 2017 年由 Google 发明的,Noam Shazeer 是关键作者。DeepSeek 将其应用到了大规模,并发明了自己的技巧。
- Muon(MomentUm Orthogonalized by Newton-Schulz)优化器由机器学习研究者 Keller Jordan 于 2024 年末创建。Kimi(月之暗面)团队是第一个将它用于大规模训练的团队。
那赚钱呢?
我们研究一下 OpenAI 的有趣例子。
OpenAI 获得了以低价购买 AMD 和 Cerebras 股票的认股权证/期权,这些权益基于消费里程碑解锁。对 AMD 和 Cerebras 来说,这是一笔非常好的交易。OpenAI 对它们的承诺,使它们更有可能长期成功。
AMD 公告中的引文:
“作为协议的一部分,为进一步协调战略利益,AMD 向 OpenAI 发行了最多 1.6 亿股 AMD 普通股的认股权证,该安排将随着特定里程碑达成而逐步归属。第一批将在初始 1 吉瓦部署时归属,后续批次将随着采购规模扩大到 6 吉瓦而归属。归属还与 AMD 达成某些股价目标,以及 OpenAI 达成使 AMD 部署能够规模化所需的技术和商业里程碑相关。”
我预测 DeepSeek 会与多家中国内存、ASIC、CPU 和网络堆栈制造商达成类似协议,并与它们密切合作,使它们的硬件堆栈能够胜任领先 AI 工作负载。
考虑到所有西方(包括东亚盟友)AI 股票的合计估值远超 10 万亿美元,这种授予股权的合作方式,可以让 DeepSeek 帮助中国创造同样巨大的产业,并从中分得一杯羹,同时让自己实现 1 万亿美元估值。
这将使他们赚到更多钱,同时也实现他们口中的目标:“让每个人都拥有 AGI”。
梁文锋是 Jim Simons 的忠实粉丝,也是一位非常聪明的资本家,他不会错过这一点!
如果你观察 DeepSeek 迄今为止做过的一切,这是唯一说得通的解释。
这些都是关键 AI 股票。图中没有展示超大规模云厂商以及许多其他公司。
关于这些创新的详细博客会在本周末发布,如果感兴趣,可以关注我的 Substack:https://polymath707.substack.com/