前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。

1️⃣ 模型方面

  • Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。
  • Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。
  • Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4.5, Claude Sonnet 3.7, 和 Gemini 2.0 Pro。用于通过知识蒸馏提升 Scout 和 Maverick 的性能。

2️⃣ 技术方面

  • 原生多模态: 采用早期融合 (early fusion) 技术,将文本和视觉 tokens 整合到统一模型骨干中进行联合预训练。改进了基于 MetaCLIP 的视觉编码器。
  • 专家混合 (MoE) 架构:Llama 4 首次采用 MoE,提高训练和推理效率。Maverick 模型使用 128 个路由专家和 1 个共享专家。
  • 超长上下文:Scout 模型支持 10M token 上下文,得益于专门的训练方法和 iRoPE 架构(交错注意力层,无位置嵌入)。
  • 训练优化:使用 MetaP 技术设置超参数,采用 FP8 精度高效训练 (Behemoth 在 32K GPUs 上达 390 TFLOPs/GPU)。预训练数据超 30 万亿 tokens (文本、图像、视频),覆盖 200 种语言。
  • 后训练 (Post-training):采用轻量级 SFT > 在线 RL > 轻量级 DPO 流程,注重处理较难数据,通过持续在线 RL 策略提升性能。Behemoth 的训练使用了更大规模的 RL 和数据剪枝 (95%)。

3️⃣ 性能方面

  • Scout 和 Maverick 在各自级别中均达到最佳多模态性能,在编码、推理、多语言、长上下文和图像理解方面表现出色。
  • Scout 在图像定位 (image grounding) 方面表现突出。
  • 模型支持多图像输入 (预训练达 48 张,后训练测试达 8 张)。
  • 适用于通用助手、聊天、多文档摘要、代码库推理、个性化任务等。

4️⃣ 开源方面

  • Llama 4 Scout 和 Maverick 作为开放权重模型,已在 llama dot com 和 Hugging Face 上提供下载。
  • 已集成到 Meta AI (WhatsApp, Messenger, Instagram Direct 网站)。
  • 将通过云服务商、硬件伙伴等途径提供。

5️⃣ 安全方面

  • 集成了多层安全措施 (数据过滤、策略对齐、系统级工具如 Llama Guard, Prompt Guard, CyberSecEval)。
  • 采用自动化和人工红队测试,包括新的 Generative Offensive Agent Testing (GOAT) 方法。
  • 致力于减少模型偏见,尤其是在政治和社会议题上。Llama 4 在减少偏见和不合理拒答方面相比 Llama 3 有显著改进,表现与 Grok 相当。

Llama 4 系列:原生多模态 AI 创新新纪元的开端

2025年4月5日

核心要点

  • 我们正在分享 Llama 4 系列的首批模型,这将使人们能够构建更个性化的多模态体验。
  • Llama 4 Scout,一个拥有170亿活跃参数和16个专家的模型,是其同类中全球最佳的多模态模型,比所有前代 Llama 模型都更强大,同时可以适配单个 NVIDIA H100 GPU。此外,Llama 4 Scout 提供了行业领先的1000万上下文窗口,并在广泛报道的基准测试中,其结果优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
  • Llama 4 Maverick,一个拥有170亿活跃参数和128个专家的模型,是其同类中最佳的多模态模型,在广泛报道的基准测试中击败了 GPT-4o 和 Gemini 2.0 Flash,同时在推理和编码方面达到了与新的 DeepSeek v3 相当的结果——而活跃参数不到其一半。Llama 4 Maverick 提供了同类最佳的性能成本比,其实验性聊天版本在 LMArena 上的 ELO 评分为 1417。
  • 这些模型之所以是我们迄今为止最好的,得益于从 Llama 4 Behemoth 的蒸馏。Llama 4 Behemoth 是一个拥有2880亿活跃参数和16个专家的模型,是我们迄今最强大且跻身全球最智能 LLM 之列的模型。Llama 4 Behemoth 在多项 STEM 基准测试中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 仍在训练中,我们很兴奋能在其仍在进行中时分享更多关于它的细节。
  • 今天即可在 llama.comHugging Face 下载 Llama 4 Scout 和 Llama 4 Maverick 模型。在 WhatsApp、Messenger、Instagram Direct 以及 网页 上尝试由 Llama 4 构建的 Meta AI。

随着越来越多的人继续使用人工智能来提升他们的日常生活,确保领先的模型和系统能够开放获取变得至关重要,这样每个人都能构建个性化体验的未来。今天,我们激动地宣布推出支持整个 Llama 生态系统的最先进模型套件。我们引入了 Llama 4 Scout 和 Llama 4 Maverick,这是首批具有前所未有上下文长度支持的开源权重原生多模态模型,也是我们首次使用混合专家(MoE)架构构建的模型。我们还预告了 Llama 4 Behemoth,这是世界上最智能的 LLM 之一,也是我们迄今为止最强大的模型,它将作为我们新模型的“教师”。

这些 Llama 4 模型标志着 Llama 生态系统新纪元的开始。我们在 Llama 4 系列中设计了两款高效模型:Llama 4 Scout,一个拥有170亿活跃参数和16个专家的模型;以及 Llama 4 Maverick,一个拥有170亿活跃参数和128个专家的模型。前者(通过 Int4 量化)可以适配单个 H100 GPU,而后者可以适配单个 H100 主机。我们还训练了一个教师模型 Llama 4 Behemoth,它在以 STEM 为重点的基准测试(如 MATH-500 和 GPQA Diamond)上表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。虽然我们尚未发布 Llama 4 Behemoth,因为它仍在训练中,但我们很乐意分享更多关于我们方法的技术细节。

我们始终相信,开放能够驱动创新,对开发者有益,对 Meta 有益,对世界也有益。我们今天在 llama.comHugging Face 上提供 Llama 4 Scout 和 Llama 4 Maverick 的下载,以便每个人都能继续使用我们的最新技术构建新的体验。未来几天,我们还将通过我们的合作伙伴提供这些模型。您也可以从今天开始,在 WhatsApp、Messenger、Instagram Direct 以及 Meta.AI 网站上尝试使用 Llama 4 的 Meta AI。

这仅仅是 Llama 4 系列的开端。我们相信,最智能的系统需要能够执行泛化操作,与人类自然对话,并解决它们以前未见过的挑战性问题。赋予 Llama 在这些领域的超能力将为我们平台上的用户带来更好的产品,并为开发者在下一个重大的消费者和商业用例上创新提供更多机会。我们将继续研究和原型化模型与产品,并将在4月29日的 LlamaCon 上分享更多关于我们愿景的信息——注册以了解更多

无论您是基于我们模型进行构建的开发者,是将它们集成到工作流程中的企业,还是仅仅对 AI 的潜在用途和好处感到好奇,Llama 4 Scout 和 Llama 4 Maverick 都是为您的产品添加下一代智能的最佳选择。今天,我们很高兴能分享更多关于它们开发的四个主要部分以及我们研究和设计过程的见解。我们也迫不及待地想看到社区使用我们新的 Llama 4 模型构建出令人难以置信的新体验。

预训练

这些模型代表了 Llama 的最高水平,以极具吸引力的价格提供多模态智能,同时性能超越了体量大得多的模型。构建下一代 Llama 模型需要我们在预训练期间采取几种新方法。

我们新的 Llama 4 模型是我们首批使用混合专家(MoE)架构的模型。在 MoE 模型中,单个 token 只激活总参数的一小部分。MoE 架构在训练和推理方面具有更高的计算效率,并且在固定的训练 FLOPs 预算下,相比密集模型能提供更高的质量。

例如,Llama 4 Maverick 模型拥有 170 亿活跃参数和 4000 亿总参数。我们使用交替的密集层和混合专家(MoE)层来提高推理效率。MoE 层使用 128 个路由专家和一个共享专家。每个 token 被发送到共享专家,并同时发送到 128 个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在服务这些模型时只激活了总参数的一个子集。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行以便于部署,或者使用分布式推理以实现最大效率。

Llama 4 模型设计为原生多模态,采用早期融合技术将文本和视觉 token 无缝集成到统一的模型主干中。早期融合是一个重大进步,因为它使我们能够使用大量的未标记文本、图像和视频数据联合预训练模型。我们还改进了 Llama 4 中的视觉编码器。这基于 MetaCLIP,但与一个冻结的 Llama 模型联合单独训练,以更好地使编码器适应 LLM。

我们开发了一种新的训练技术,称之为 MetaP,它使我们能够可靠地设置关键的模型超参数,例如每层学习率和初始化尺度。我们发现,选定的超参数在不同的批处理大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。Llama 4 通过在 200 种语言上进行预训练,支持开源微调工作,其中包括超过 100 种语言各有超过 10 亿个 token,总体多语言 token 数量比 Llama 3 多 10 倍。

此外,我们专注于高效的模型训练,使用 FP8 精度,同时不牺牲质量并确保高模型 FLOPs 利用率——在使用 FP8 和 32K GPU 预训练我们的 Llama 4 Behemoth 模型时,我们实现了 390 TFLOPs/GPU。用于训练的总体数据混合包含超过 30 万亿个 token,这是 Llama 3 预训练混合的两倍多,并包括多样化的文本、图像和视频数据集。

我们继续在所谓的“中期训练”中训练模型,以通过新的训练配方(包括使用专门数据集进行长上下文扩展)来提高核心能力。这使我们能够提升模型质量,同时也为 Llama 4 Scout 解锁了同类最佳的 1000 万输入上下文长度。

我们新模型的后训练

我们最新的模型包括更小和更大的选项,以适应各种用例和开发者需求。Llama 4 Maverick 在图像和文本理解方面提供无与伦比、行业领先的性能,能够创建跨越语言障碍的复杂 AI 应用。作为我们用于通用助手和聊天用例的产品主力模型,Llama 4 Maverick 非常适合精确的图像理解和创造性写作。

在后训练 Llama 4 Maverick 模型时,最大的挑战是在多种输入模态、推理和对话能力之间保持平衡。对于混合模态,我们提出了一种精心策划的课程策略,与单独的模态专家模型相比,该策略不会牺牲性能。对于 Llama 4,我们通过采用不同的方法改进了后训练流程:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。一个关键的学习是,SFT 和 DPO 可能会过度约束模型,限制在线 RL 阶段的探索,并导致次优的准确性,特别是在推理、编码和数学领域。为了解决这个问题,我们使用 Llama 模型作为评判者,移除了超过 50% 被标记为简单的训练数据,并在剩余的较难数据集上进行了轻量级 SFT。在随后的多模态在线 RL 阶段,通过仔细选择更难的提示,我们得以在性能上实现阶跃式提升。此外,我们实施了一种持续在线 RL 策略,即我们交替进行模型训练,然后使用该模型持续过滤并仅保留中等到困难难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有益。然后我们进行了轻量级 DPO 来处理与模型响应质量相关的边界情况,有效地在模型的智能和对话能力之间取得了良好平衡。流程架构和带有自适应数据过滤的持续在线 RL 策略共同成就了一个行业领先的通用聊天模型,具有最先进的智能和图像理解能力。

作为一个通用 LLM,Llama 4 Maverick 包含 170 亿活跃参数、128 个专家和 4000 亿总参数,与 Llama 3.3 70B 相比,以更低的价格提供高质量。Llama 4 Maverick 是同类最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超过了 GPT-4o 和 Gemini 2.0 等可比模型,并且在编码和推理方面与体量大得多的 DeepSeek v3.1 具有竞争力。

我们较小的模型 Llama 4 Scout 是一个通用模型,拥有 170 亿活跃参数、16 个专家和 1090 亿总参数,为其同类产品提供了最先进的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 的 128K 大幅增加到行业领先的 1000 万 token。这开启了一个充满可能性的世界,包括多文档摘要、解析广泛的用户活动以进行个性化任务,以及对庞大的代码库进行推理。

Llama 4 Scout 在预训练和后训练中都使用了 256K 的上下文长度,这赋予了基础模型先进的长度泛化能力。我们在诸如文本“大海捞针检索”(retrieval needle in haystack)以及超过 1000 万 token 代码的累积负对数似然(NLLs)等任务中展示了令人信服的结果。Llama 4 架构的一个关键创新是使用了不带位置嵌入的交错注意力层。此外,我们采用了注意力的推理时温度缩放来增强长度泛化能力。我们称之为 iRoPE 架构,其中“i”代表“交错”(interleaved)注意力层,强调了支持“无限”(infinite)上下文长度的长期目标,“RoPE”指的是大多数层中使用的旋转位置嵌入

我们对这两款模型都使用了各种各样的图像和视频帧静态图进行训练,以赋予它们广泛的视觉理解能力,包括对时间性活动和相关图像的理解。这使得模型能够轻松地处理多图像输入以及文本提示,以完成视觉推理和理解任务。这些模型在预训练中最多可处理 48 张图像,我们在后训练中测试了最多 8 张图像,效果良好。

Llama 4 Scout 在图像定位(image grounding)方面也是同类最佳,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得 LLM 能够进行更精确的视觉问答,从而更好地理解用户意图并定位感兴趣的对象。Llama 4 Scout 在编码、推理、长上下文和图像基准测试方面也超过了可比模型,并提供了比所有先前 Llama 模型更强的性能。

这些新模型是重要的构建模块,将有助于实现人类连接的未来。秉承我们对开源的承诺,我们将在 llama.com 和 Hugging Face 上提供 Llama 4 Maverick 和 Llama 4 Scout 的下载,随后将在最广泛使用的云和数据平台、边缘芯片以及全球服务集成商上提供。

将 Llama 推向新规模:2T 参数的 Behemoth

我们很高兴能预告 Llama 4 Behemoth,这是一个教师模型,在其同类模型中展示了先进的智能。Llama 4 Behemoth 也是一个多模态混合专家模型,拥有 2880 亿活跃参数、16 个专家和近两万亿总参数。它在数学、多语言和图像基准测试方面为非推理模型提供了最先进的性能,是教导较小 Llama 4 模型的完美选择。我们将 Llama 4 Maverick 模型从作为教师模型的 Llama 4 Behemoth 进行协同蒸馏,从而在最终任务评估指标上实现了显著的质量改进。我们开发了一种新颖的蒸馏损失函数,该函数在训练过程中动态地加权软目标和硬目标。在预训练期间从 Llama 4 Behemoth 进行协同蒸馏,分摊了计算蒸馏目标所需的资源密集型前向传播的计算成本,这覆盖了学生模型训练中使用的大部分训练数据。对于学生模型训练中纳入的额外新数据,我们在 Behemoth 模型上运行前向传播以创建蒸馏目标。

对一个拥有两万亿参数的模型进行后训练也是一项重大挑战,这要求我们彻底改革和更新配方,从数据规模开始。为了最大化性能,我们不得不修剪 95% 的 SFT 数据,而较小模型为 50%,以达到对质量和效率的必要关注。我们还发现,进行轻量级 SFT 后再进行大规模强化学习(RL)对模型的推理和编码能力产生了更显著的改进。我们的 RL 配方侧重于通过使用策略模型进行 pass@k 分析来采样困难提示,并制定一个提示难度递增的训练课程。我们还发现,在训练期间动态过滤掉优势为零的提示,并构建包含来自多种能力的混合提示的训练批次,对于在数学、推理和编码方面提供性能提升至关重要。最后,从各种系统指令中采样对于确保模型在推理和编码方面保持其指令遵循能力,并在各种任务中表现良好至关重要。

为一个两万亿参数的模型扩展 RL 也需要改进我们底层的 RL 基础设施,因为其规模前所未有。我们优化了 MoE 并行化设计以提高速度,从而实现了更快的迭代。我们开发了一个完全异步的在线 RL 训练框架,增强了灵活性。与现有的分布式训练框架(为了将所有模型堆叠在内存中而牺牲计算内存)相比,我们的新基础设施能够将不同的模型灵活地分配给不同的 GPU,根据计算速度平衡多个模型的资源。这项创新使得训练效率比前几代提高了约 10 倍。

安全保障与防护措施

我们的目标是开发最有帮助和最有用的模型,同时防范和减轻最严重的风险。我们遵循我们的开发者使用指南:AI 防护(Developer Use Guide: AI Protections)中概述的最佳实践来构建 Llama 4。这包括在模型开发的每个层面(从预训练到后训练)集成缓解措施,以及可调整的系统级缓解措施,以保护开发者免受对抗性用户的侵害。通过这样做,我们赋能开发者为其 Llama 支持的应用创建有益、安全且适应性强的体验。

预训练和后训练缓解措施

对于预训练,我们结合使用数据过滤和其他数据缓解措施来保护模型。对于后训练,我们应用一系列技术来确保我们的模型符合对用户和开发者有益的策略,包括在每个阶段使用适当级别的安全数据。

系统级方法

在系统层面,我们开源了几种安全保障措施,可以帮助识别和防范潜在有害的输入和输出。这些工具可以集成到我们的 Llama 模型中,并与其他第三方工具一起使用:

  • Llama Guard:我们基于与 MLCommons 共同开发的风险分类体系构建的输入/输出安全大语言模型。开发者可以用它来检测输入或输出是否违反了他们为特定应用创建的策略。
  • Prompt Guard:一个在大型攻击语料库上训练的分类器模型,能够检测明确的恶意提示(越狱攻击,Jailbreaks)以及包含注入输入的提示(提示注入,Prompt Injections)。
  • CyberSecEval:帮助 AI 模型和产品开发者理解和降低生成式 AI 网络安全风险的评估。

我们从开发者那里了解到,当这些工具可以根据他们的应用进行定制时,它们最为有效和有帮助。我们为开发者提供了一个开放的解决方案,以便他们可以根据自己的需求创建最安全、最有效的体验。我们还将继续与全球合作伙伴合作,创建有益于开源社区的全行业系统标准。

评估与红队测试

我们以可控且可重复的方式,在广泛的场景和用例中对模型进行系统性测试。这产生了数据,我们将其反馈到后训练中。

我们使用自动化和手动测试,在各种主题上通过对抗性动态探测来对我们的模型进行压力测试。我们在理解和评估潜在模型风险方面取得了进展。其中一个例子是我们新开发的生成式攻击智能体测试(GOAT, Generative Offensive Agent Testing)。通过使用 GOAT,我们模拟中等技能对抗性角色的多轮交互,解决了传统红队测试的局限性,帮助我们提高测试覆盖率并更快地发现漏洞。通过将自动化添加到我们的测试工具包中,GOAT 使我们的专家级人类红队测试人员能够专注于更新颖的对抗性领域,而自动化则专注于已知的风险领域。这使得过程更加高效和有效,并使我们能够构建更好、更全面的风险定量和定性图景。

解决 LLM 中的偏见问题

众所周知,所有领先的 LLM 都存在偏见问题——具体来说,在有争议的政治和社会话题上,它们历来倾向于左派。这是由于互联网上可用的训练数据类型造成的。

我们的目标是消除 AI 模型中的偏见,并确保 Llama 能够理解和阐述争议性问题的双方观点。作为这项工作的一部分,我们正在继续使 Llama 更具响应性,以便它能回答问题,能够回应各种不同的观点而不做评判,并且不偏袒某些观点。

在本次发布中,我们在这些努力上取得了改进——Llama 4 的表现显著优于 Llama 3,并且与 Grok 相当:

  • Llama 4 在有争议的政治和社会话题上的拒绝回答率总体降低(从 Llama 3.3 的 7% 降至 2% 以下)。
  • Llama 4 在拒绝回应哪些提示方面更加均衡(在一组有争议的话题性问题上,不平等回应拒绝的比例现在低于 1%)。
  • 我们的测试表明,在一组有争议的政治或社会话题上,Llama 4 带有强烈政治倾向的回应率与 Grok 相当(并且是 Llama 3.3 的一半)。虽然我们正在取得进展,但我们知道还有更多工作要做,并将继续进一步降低这一比率。

我们为迄今为止取得的进展感到自豪,并继续致力于实现消除模型整体偏见的目标。

探索 Llama 生态系统

虽然模型的智能很重要,但人们也希望模型能够以类似人类的速度进行个性化回复。作为我们迄今为止最先进的模型,Llama 4 经过优化以满足这些需求。

当然,模型只是将这些体验变为现实的更大生态系统的一部分。我们专注于完整的技术栈,包括新的产品集成。我们很高兴能继续与我们的合作伙伴和开源社区进行对话,并且一如既往地,我们迫不及待地想看到人们在新的 Llama 生态系统中构建出的丰富体验。

今天即可在 llama.comHugging Face 下载 Llama 4 Scout 和 Llama 4 Maverick 模型。在 WhatsApp、Messenger、Instagram Direct 以及 Meta.AI 网站上尝试由 Llama 4 构建的 Meta AI。

这项工作得到了 AI 社区合作伙伴的支持。我们要感谢并鸣谢(按字母顺序排列):Accenture, Amazon Web Services, AMD, Arm, CentML, Cerebras, Cloudflare, Databricks, Deepinfra, DeepLearning.AI, Dell, Deloitte, Fireworks AI, Google Cloud, Groq, Hugging Face, IBM Watsonx, Infosys, Intel, Kaggle, Mediatek, Microsoft Azure, Nebius, NVIDIA, ollama, Oracle Cloud, PwC, Qualcomm, Red Hat, SambaNova, Sarvam AI, Scale AI, Scaleway, Snowflake, TensorWave, Together AI, vLLM, Wipro.