大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2:现代大型语言模型架构设计 • Sebastian Raschka

本文深入分析了 2025 年主流开源大语言模型(LLM)的架构演进。作者指出,尽管这些新模型在宏观结构上与七年前的 GPT 架构相似,但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计,而非关注基准测试性能或训练算法。 主要观点 文章的核心观点是,当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革,但通过对现有 Transformer 基础的精细打磨,研究者们实现了显著的性能与效率平衡。 混合专家模型(MoE)成为主流:为了在不显著增加推理成本的前提下大幅提升模型参数量(即模型容量),DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。 注意力机制持续创新:为降低推理过程中的内存占用和计算量,各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准,DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存(KV cache),而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。 归一化策略的精细调整:为了提升训练过程的稳定性,模型开发者对归一化层(Normalization Layer)的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局,并引入 QK-Norm,Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。 对位置编码的实验性探索:部分模型开始挑战传统的位置编码方案。例如,SmolLM3 实验性地采用了 No Positional Embeddings (NoPE),旨在改善模型对不同序列长度的泛化能力。 关键细节 以下是支持上述观点的具体模型架构细节: DeepSeek V3 / R1 Multi-Head Latent Attention (MLA):通过在存入 KV cache 前压缩键(key)和值(value)张量来节省内存,实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE):模型总参数量高达 6710 亿(671B),但推理时每个 token 仅激活 9 个专家(1 个共享专家 + 8 个路由选择的专家),活跃参数仅为 370 亿(37B)。共享专家的设计有助于学习通用模式,提升了模型性能。 Kimi 2...

July 23, 2025 · 4 min · fisherdaddy

Llama 4 综合评估:基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者,持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后,Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家(MoE)架构和原生多模态等关键技术革新,Meta 公布的基准测试数据显示其在多个指标上表现优异,甚至超越了一些领先的闭源模型。然而,大量来自开发者社区和独立测试者的实际应用反馈却指出,Llama 4 在编码、推理等方面的实际表现并未达到预期,甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异,引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。 今天正好 Google 更新了 DeepResearch:由原来基于 Gemini 2.0 Flash Thinking 模型,改为基于 Gemini 2.5 pro 模型(目前已公开的最强模型),结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测,我也尝试了一些 case,确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写,我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型,旨在支持整个 Llama 生态系统,并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家(MoE)架构和原生多模态设计。目前已发布和预告的模型包括: Llama 4 Scout: 这是一款轻量级、高效率的模型,拥有 109B 总参数和 16 个专家,每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口,远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行,适用于通用 AI 任务,尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数,但总参数量达到 400B,并配备了 128 个专家。Maverick 被定位为通用主力模型,特别适用于助手和聊天场景,在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口,并可在单个 H100 主机(或多 GPU)上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

April 9, 2025 · 6 min · fisherdaddy

Llama 4 系列:原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....

April 6, 2025 · 5 min · fisherdaddy