Qwen3

介绍一下 Qwen3-Next

Qwen 团队认为 Scaling Laws 法则仍然是未来大模型发展的趋势，主要包括 Context Length Scaling 和 Total Parameter Scaling。基于这个判断，Qwen 团队推出 Qwen3-Next 全新大模型架构，这个架构的核心就是为了提升在长上下文处理和大规模参数下的训练与推理效率。通过一个数据可以直观的看到基于这个架构的模型表现，Qwen3-Next-80B-A3B 仅用不到 Qwen3-32B 模型十分之一的训练资源，就达到了相近甚至更好的性能，并在长上下文推理场景下实现了超过 10 倍的吞吐量提升。基于 Qwen3-Next-80B-A3B-Base 模型，Qwen 团队开源了 Qwen3-Next-80B-A3B-Instruct 与 Qwen3-Next-80B-A3B-Thinking。Instruct 版本在超长上下文任务上优势明显，性能媲美旗舰模型 Qwen3-235B；Thinking 版本在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等顶级闭源模型。架构创新混合注意力机制: 模型中 75% 的层使用 Gated DeltaNet 以提升长文本处理效率，25% 的层保留增强后的标准注意力以确保模型性能，实现了效率与效果的最佳平衡。高稀疏度 MoE 结构: 模型总参数量达到 80B，但每次推理仅激活约 3B 参数。专家系统扩展至 512 个总专家，并采用 10 个路由专家和 1 个共享专家的组合，最大化资源利用率。训练稳定性优化: 采用了 Zero-Centered RMSNorm、权重衰减和 MoE router 参数归一化等技术，确保了模型在复杂架构下训练的稳定性。多 Token 预测 (MTP): 原生支持 MTP 机制，通过一次预测多个 token，有效提升了 Speculative Decoding 的效率和推理速度。训练与推理效率训练成本: 使用 15T tokens 的数据进行预训练，所消耗的 GPU Hours 仅为 Qwen3-32B 模型的 9....

阿里 Qwen 团队发布首个万亿参数大模型 Qwen3-Max-Preview(Instruct)，但不开源！！

阿里发布了 Qwen 系列首个万亿参数的模型：Qwen3-Max-Preview(Instruct)，模型参数超 1 万亿，非思考模型。目前可以在 qwen chat 或 api 上接入来体验，基准测试显示，其性能优于 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实：性能更强，知识更广，在对话、Agent 任务和指令遵循方面表现更佳。但不开源！！从 benchmark 上来看，作为一个非思考模型能力算是很强了，官方的这个图标上没有对比目前的顶级闭源模型的对比，可能是因为目前的顶级模型都是深度思考模型。我找了下在同一指标下 gpt-5 和 gemini 2.5 pro 的变现。在 AIME 25（美国数学竞赛）指标上，Qwen3-Max-Preview(Instruct) 得分 80.6% 。非思考模式且不用工具的情况下的 gpt-5 仅得分 61.9 %，若开启思考则能达到 94.6%。对比思考模型，gemini 2.5 pro 和 DeepSeek r1 分别是 88% 和 87.5%。在 LiveCodeBench（编程）指标上，Qwen3-Max-Preview(Instruct) 得分 57.6% 。对比思考模型，gemini 2.5 pro 为 69%。最后，阿里这个万亿参数模型没有开源挺令人意外的，现在的开源更像是一种宣发策略，通过开源让社区自传播，既省去了推广费，又有机会复刻年初 DeepSeek R1 的爆火盛况。如果重投入开发出一个模型却没人使用，这个模型的收益就几乎为零了。反观国内的两个一直闭源的小虎：Kimi 和智谱，他们今年全是走的开源策略，特别是 Kimi，大大减少 C 端投放，把投入重点放到模型研发上，至于推广靠开源来实现，比如 K2 的火爆也是这个策略带来的收益。当然，Qwen这次的逻辑有可能是先放出指标，引流到自家产品上，等过段时间再开源，抑或是走了部分模型开源，部分模型闭源的策略。最后的最后，还是用两个经典的编程题目来看一下 Qwen3-Max-Preview(Instruct) 的实际能力：生成一个鹈鹕骑车的 svg 和生成一只青蛙演奏萨克斯的 svg。从结果上看，这个模型的编码能力确实要优于 Qwen3-235B-A22B-2507 和 Qwen3-Coder-480B-A35B-Instruct。

大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2：现代大型语言模型架构设计 • Sebastian Raschka

本文深入分析了 2025 年主流开源大语言模型（LLM）的架构演进。作者指出，尽管这些新模型在宏观结构上与七年前的 GPT 架构相似，但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计，而非关注基准测试性能或训练算法。主要观点文章的核心观点是，当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革，但通过对现有 Transformer 基础的精细打磨，研究者们实现了显著的性能与效率平衡。混合专家模型（MoE）成为主流：为了在不显著增加推理成本的前提下大幅提升模型参数量（即模型容量），DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。注意力机制持续创新：为降低推理过程中的内存占用和计算量，各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准，DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存（KV cache），而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。归一化策略的精细调整：为了提升训练过程的稳定性，模型开发者对归一化层（Normalization Layer）的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局，并引入 QK-Norm，Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。对位置编码的实验性探索：部分模型开始挑战传统的位置编码方案。例如，SmolLM3 实验性地采用了 No Positional Embeddings (NoPE)，旨在改善模型对不同序列长度的泛化能力。关键细节以下是支持上述观点的具体模型架构细节： DeepSeek V3 / R1 Multi-Head Latent Attention (MLA)：通过在存入 KV cache 前压缩键（key）和值（value）张量来节省内存，实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE)：模型总参数量高达 6710 亿（671B），但推理时每个 token 仅激活 9 个专家（1 个共享专家 + 8 个路由选择的专家），活跃参数仅为 370 亿（37B）。共享专家的设计有助于学习通用模式，提升了模型性能。 Kimi 2...