Llama 4

大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2：现代大型语言模型架构设计 • Sebastian Raschka

本文深入分析了 2025 年主流开源大语言模型（LLM）的架构演进。作者指出，尽管这些新模型在宏观结构上与七年前的 GPT 架构相似，但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计，而非关注基准测试性能或训练算法。主要观点文章的核心观点是，当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革，但通过对现有 Transformer 基础的精细打磨，研究者们实现了显著的性能与效率平衡。混合专家模型（MoE）成为主流：为了在不显著增加推理成本的前提下大幅提升模型参数量（即模型容量），DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。注意力机制持续创新：为降低推理过程中的内存占用和计算量，各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准，DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存（KV cache），而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。归一化策略的精细调整：为了提升训练过程的稳定性，模型开发者对归一化层（Normalization Layer）的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局，并引入 QK-Norm，Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。对位置编码的实验性探索：部分模型开始挑战传统的位置编码方案。例如，SmolLM3 实验性地采用了 No Positional Embeddings (NoPE)，旨在改善模型对不同序列长度的泛化能力。关键细节以下是支持上述观点的具体模型架构细节： DeepSeek V3 / R1 Multi-Head Latent Attention (MLA)：通过在存入 KV cache 前压缩键（key）和值（value）张量来节省内存，实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE)：模型总参数量高达 6710 亿（671B），但推理时每个 token 仅激活 9 个专家（1 个共享专家 + 8 个路由选择的专家），活跃参数仅为 370 亿（37B）。共享专家的设计有助于学习通用模式，提升了模型性能。 Kimi 2...

Llama 4 综合评估：基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者，持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后，Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家（MoE）架构和原生多模态等关键技术革新，Meta 公布的基准测试数据显示其在多个指标上表现优异，甚至超越了一些领先的闭源模型。然而，大量来自开发者社区和独立测试者的实际应用反馈却指出，Llama 4 在编码、推理等方面的实际表现并未达到预期，甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异，引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。今天正好 Google 更新了 DeepResearch：由原来基于 Gemini 2.0 Flash Thinking 模型，改为基于 Gemini 2.5 pro 模型（目前已公开的最强模型），结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测，我也尝试了一些 case，确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写，我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型，旨在支持整个 Llama 生态系统，并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家（MoE）架构和原生多模态设计。目前已发布和预告的模型包括： Llama 4 Scout: 这是一款轻量级、高效率的模型，拥有 109B 总参数和 16 个专家，每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口，远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行，适用于通用 AI 任务，尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数，但总参数量达到 400B，并配备了 128 个专家。Maverick 被定位为通用主力模型，特别适用于助手和聊天场景，在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口，并可在单个 H100 主机（或多 GPU）上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

Llama 4 系列：原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职，Llama 就是她主导的项目，很多人以为 Llama 4 难产了，没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型，该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型，它们首次采用了专家混合 (MoE) 架构，并具备处理文本、图像和视频的原生多模态能力，同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout：拥有 17B 活跃参数和 16 个专家 (109B 总参数)，可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick：拥有 17B 活跃参数和 128 个专家 (400B 总参数)，可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash，在推理和编码方面与 DeepSeek v3 相当，但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth：“教师”模型，拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数)，仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....