AI 硬件

本文翻译自 GDP（@bookwormengr）发布在 X 上的文章《DeepSeek’s 10 trillion USD grand strategy》。本文完全由有道龙虾翻译、排版和发布。你有没有想过，DeepSeek 可能如何赚钱，而且赚很多钱？他们没有像 GLM、MoonShot 和 MiniMax 那样推出有竞争力的编程套餐。他们没有多模态、音频、视频模型。到目前为止，他们也没有一个 harness（他们最近才开始招聘来构建 harness）。DeepSeek 还长期致力于开源，并且非常乐于分享自己的“秘方”。这是疯狂吗？这是纯粹浪费钱吗？那些准备向他们投资 100 亿美元的投资人，是在把钱倒进下水道吗？不，恰恰相反，至少在我看来是这样！这里我会介绍我对 DeepSeek 迄今所做事情的观察，以及他们似乎正在遵循的一项战略。DeepSeek CEO 梁文锋的目光似乎盯着一个更大的奖项：他们可能实现 1 万亿美元估值，同时帮助创造一个 10 万亿美元规模的产业。 TechInAsia 关于 DeepSeek 最新融资轮的新闻重新审视 DeepSeek 的英雄之旅 DeepSeek 一直逆风而行。他们没有选择不断构建略微更好的模型，然后急着销售即时应用，比如编程套餐。我在 2025 年 1 月 27 日写过一条爆火推文，谈我眼中的“DeepSeek 英雄之旅”。这个故事现在变得更加有趣了。当人们还在尝试构建 dense models 时，DeepSeek 选择了更难训练的专家混合模型（MoE）。他们采用“第一性原理”方法，发明了新的 GRPO 算法，用来替代强化学习（RL）中占主导地位、实现成本更高的 PPO 算法。他们发现了基于可验证奖励的强化学习（RLVR），将其作为提升模型推理能力的关键策略。他们提出了通过“多 Token 预测”实现投机解码的简单策略，同时也让训练信号更密集。他们完善了“零气泡”流水线，以提高有限 GPU 资源的使用效率。他们发布了专家负载均衡器，让大家更容易部署专家混合模型。尤其是通过“宽专家并行”策略，模型可以更经济地服务，因为可以使用更大的 batch。他们发明了 MLA、DSA、CSA、HCA，以降低 KV Cache 需求，并让随着上下文增长而增加的计算需求接近恒定。他们发明了 Engram，用内存换计算。他们发明了 mHC，以实现随着模型规模增长而稳定训练。这个清单还在继续…… 在“英雄之旅”这种最普遍的故事结构中，英雄从来不会一开始就决定自己的旅程是什么。他会边走边学，逐渐发现自己的伟大使命，并在重重阻碍下完成它。他会遇到许多诋毁者，但会无视他们。他会遇到许多恶意行为者。他有巨大的缺陷或短板，但会克服它们来完成使命。他会面对看似无法逾越的挑战，但会想办法结盟，并明智地使用珍贵资源。...