大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2:现代大型语言模型架构设计 • Sebastian Raschka
本文深入分析了 2025 年主流开源大语言模型(LLM)的架构演进。作者指出,尽管这些新模型在宏观结构上与七年前的 GPT 架构相似,但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计,而非关注基准测试性能或训练算法。 主要观点 文章的核心观点是,当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革,但通过对现有 Transformer 基础的精细打磨,研究者们实现了显著的性能与效率平衡。 混合专家模型(MoE)成为主流:为了在不显著增加推理成本的前提下大幅提升模型参数量(即模型容量),DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。 注意力机制持续创新:为降低推理过程中的内存占用和计算量,各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准,DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存(KV cache),而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。 归一化策略的精细调整:为了提升训练过程的稳定性,模型开发者对归一化层(Normalization Layer)的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局,并引入 QK-Norm,Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。 对位置编码的实验性探索:部分模型开始挑战传统的位置编码方案。例如,SmolLM3 实验性地采用了 No Positional Embeddings (NoPE),旨在改善模型对不同序列长度的泛化能力。 关键细节 以下是支持上述观点的具体模型架构细节: DeepSeek V3 / R1 Multi-Head Latent Attention (MLA):通过在存入 KV cache 前压缩键(key)和值(value)张量来节省内存,实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE):模型总参数量高达 6710 亿(671B),但推理时每个 token 仅激活 9 个专家(1 个共享专家 + 8 个路由选择的专家),活跃参数仅为 370 亿(37B)。共享专家的设计有助于学习通用模式,提升了模型性能。 Kimi 2...