DeepSeek-R1 的训练过程是怎样的?• Epoch AI
本文由 Epoch AI 官方发布,主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价,并对围绕其训练成本的争议进行了分析。文章的核心观点包括: DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3,后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的,并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来,RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当,但价格却显著低于 o1,使其在性价比上更具优势。 尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室,但其模型以接近边际成本的价格提供服务,对用户来说更具吸引力。 关键细节 架构: DeepSeek-R1 的架构与 DeepSeek v3 完全相同,采用稀疏混合专家模型 (MoE),总参数量为 6710 亿,但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制,以降低 KV 缓存大小,同时保持性能。 预训练 (DeepSeek v3): DeepSeek v3 的预训练使用了混合精度 FP8,在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....