DeepSeek 的 10 万亿美元大战略
本文翻译自 GDP(@bookwormengr)发布在 X 上的文章《DeepSeek’s 10 trillion USD grand strategy》。本文完全由有道龙虾翻译、排版和发布。 你有没有想过,DeepSeek 可能如何赚钱,而且赚很多钱? 他们没有像 GLM、MoonShot 和 MiniMax 那样推出有竞争力的编程套餐。他们没有多模态、音频、视频模型。到目前为止,他们也没有一个 harness(他们最近才开始招聘来构建 harness)。DeepSeek 还长期致力于开源,并且非常乐于分享自己的“秘方”。这是疯狂吗?这是纯粹浪费钱吗?那些准备向他们投资 100 亿美元的投资人,是在把钱倒进下水道吗? 不,恰恰相反,至少在我看来是这样! 这里我会介绍我对 DeepSeek 迄今所做事情的观察,以及他们似乎正在遵循的一项战略。DeepSeek CEO 梁文锋的目光似乎盯着一个更大的奖项:他们可能实现 1 万亿美元估值,同时帮助创造一个 10 万亿美元规模的产业。 TechInAsia 关于 DeepSeek 最新融资轮的新闻 重新审视 DeepSeek 的英雄之旅 DeepSeek 一直逆风而行。他们没有选择不断构建略微更好的模型,然后急着销售即时应用,比如编程套餐。 我在 2025 年 1 月 27 日写过一条爆火推文,谈我眼中的“DeepSeek 英雄之旅”。这个故事现在变得更加有趣了。 当人们还在尝试构建 dense models 时,DeepSeek 选择了更难训练的专家混合模型(MoE)。 他们采用“第一性原理”方法,发明了新的 GRPO 算法,用来替代强化学习(RL)中占主导地位、实现成本更高的 PPO 算法。 他们发现了基于可验证奖励的强化学习(RLVR),将其作为提升模型推理能力的关键策略。 他们提出了通过“多 Token 预测”实现投机解码的简单策略,同时也让训练信号更密集。 他们完善了“零气泡”流水线,以提高有限 GPU 资源的使用效率。 他们发布了专家负载均衡器,让大家更容易部署专家混合模型。尤其是通过“宽专家并行”策略,模型可以更经济地服务,因为可以使用更大的 batch。 他们发明了 MLA、DSA、CSA、HCA,以降低 KV Cache 需求,并让随着上下文增长而增加的计算需求接近恒定。 他们发明了 Engram,用内存换计算。 他们发明了 mHC,以实现随着模型规模增长而稳定训练。这个清单还在继续…… 在“英雄之旅”这种最普遍的故事结构中,英雄从来不会一开始就决定自己的旅程是什么。他会边走边学,逐渐发现自己的伟大使命,并在重重阻碍下完成它。他会遇到许多诋毁者,但会无视他们。他会遇到许多恶意行为者。他有巨大的缺陷或短板,但会克服它们来完成使命。他会面对看似无法逾越的挑战,但会想办法结盟,并明智地使用珍贵资源。...