Llama 4 综合评估:基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者,持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后,Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家(MoE)架构和原生多模态等关键技术革新,Meta 公布的基准测试数据显示其在多个指标上表现优异,甚至超越了一些领先的闭源模型。然而,大量来自开发者社区和独立测试者的实际应用反馈却指出,Llama 4 在编码、推理等方面的实际表现并未达到预期,甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异,引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。 今天正好 Google 更新了 DeepResearch:由原来基于 Gemini 2.0 Flash Thinking 模型,改为基于 Gemini 2.5 pro 模型(目前已公开的最强模型),结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测,我也尝试了一些 case,确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写,我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型,旨在支持整个 Llama 生态系统,并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家(MoE)架构和原生多模态设计。目前已发布和预告的模型包括: Llama 4 Scout: 这是一款轻量级、高效率的模型,拥有 109B 总参数和 16 个专家,每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口,远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行,适用于通用 AI 任务,尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数,但总参数量达到 400B,并配备了 128 个专家。Maverick 被定位为通用主力模型,特别适用于助手和聊天场景,在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口,并可在单个 H100 主机(或多 GPU)上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

April 9, 2025 · 6 min · fisherdaddy

Llama 4 系列:原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....

April 6, 2025 · 5 min · fisherdaddy