Qwen | FisherAI

介绍一下 Qwen3-Next

Qwen 团队认为 Scaling Laws 法则仍然是未来大模型发展的趋势，主要包括 Context Length Scaling 和 Total Parameter Scaling。基于这个判断，Qwen 团队推出 Qwen3-Next 全新大模型架构，这个架构的核心就是为了提升在长上下文处理和大规模参数下的训练与推理效率。通过一个数据可以直观的看到基于这个架构的模型表现，Qwen3-Next-80B-A3B 仅用不到 Qwen3-32B 模型十分之一的训练资源，就达到了相近甚至更好的性能，并在长上下文推理场景下实现了超过 10 倍的吞吐量提升。基于 Qwen3-Next-80B-A3B-Base 模型，Qwen 团队开源了 Qwen3-Next-80B-A3B-Instruct 与 Qwen3-Next-80B-A3B-Thinking。Instruct 版本在超长上下文任务上优势明显，性能媲美旗舰模型 Qwen3-235B；Thinking 版本在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等顶级闭源模型。架构创新混合注意力机制: 模型中 75% 的层使用 Gated DeltaNet 以提升长文本处理效率，25% 的层保留增强后的标准注意力以确保模型性能，实现了效率与效果的最佳平衡。高稀疏度 MoE 结构: 模型总参数量达到 80B，但每次推理仅激活约 3B 参数。专家系统扩展至 512 个总专家，并采用 10 个路由专家和 1 个共享专家的组合，最大化资源利用率。训练稳定性优化: 采用了 Zero-Centered RMSNorm、权重衰减和 MoE router 参数归一化等技术，确保了模型在复杂架构下训练的稳定性。多 Token 预测 (MTP): 原生支持 MTP 机制，通过一次预测多个 token，有效提升了 Speculative Decoding 的效率和推理速度。训练与推理效率训练成本: 使用 15T tokens 的数据进行预训练，所消耗的 GPU Hours 仅为 Qwen3-32B 模型的 9....

介绍一下阿里 Qwen 团队最新开源的编码模型：Qwen3-Coder-30B-A3B-Instruct

Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简，旨在保持卓越性能的同时提高效率，特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计，并通过特殊的函数调用格式，为开发者提供了强大的工具集成能力。模型亮点卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中，该模型在开源模型中表现出众。长上下文能力: 原生支持 256K tokens 的上下文长度，并可通过 Yarn 技术扩展至 1M tokens，能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台，并设计了专门的函数调用 (function call) 格式，便于工具集成和自动化任务。模型规格模型类型: 因果语言模型 (Causal Language Models)。参数量: 总参数量为 30.5B，激活参数量为 3.3B。架构: 包含 48 个层，采用分组查询注意力 (GQA) 机制，其中查询 (Q) 有 32 个注意力头，键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构，共有 128 位专家，每次激活 8 位。上下文长度: 原生支持 256K 上下文。特别说明: 此模型仅支持非思考模式，不会在输出中生成 <think></think> 标记。使用与部署环境要求：强烈建议使用 transformers 库的最新版本（低于 4....

介绍一下阿里 Qwen 团队最新开源的深度思考模型：Qwen3-30B-A3B-Thinking-2507

Qwen 团队在 2025 年7 月 30 号开源了的最新语言模型 Qwen3-30B-A3B-Thinking-2507。该模型在 Qwen3-30B-A3B 的基础上，进一步提升了深度推理和思考能力，专为处理高度复杂的任务而设计。 Qwen3-30B-A3B-Thinking-2507 是一款经过深度优化的语言模型，其核心优势在于卓越的推理能力。该模型在过去三个月中持续迭代，显著增强了在逻辑、数学、科学、编码等需要专业知识的领域的表现。同时，它在指令遵循、工具使用、文本生成等通用能力以及对 256K 长上下文的理解能力方面也得到了显著提升。因此，官方强烈推荐在处理高复杂度推理任务时使用此版本。模型规格与特性模型类型: 因果语言模型 (Causal Language Model)，采用 MoE (Mixture-of-Experts) 架构。参数规模: 总参数量为 30.5B，激活参数量为 3.3B。架构信息: 模型包含 48 个层，128 个专家，每次前向传播激活 8 个专家。上下文长度: 原生支持高达 262,144 (256K) tokens 的上下文窗口。核心模式: 模型仅支持 “thinking mode”，该模式默认启用，会自动在输出中包含思考过程。性能表现该模型在一系列行业标准基准测试中展现了强大的性能，尤其在以下方面提升显著：推理能力: 在 AIME25 (数学推理) 和 HMMT25 (数学竞赛) 等高难度测试中得分大幅领先前代模型及部分竞品。编码能力: 在 LiveCodeBench 和 OJBench 等编码测试中表现优异。综合能力: 在知识问答 (MMLU-Pro)、与人类偏好对齐 (Arena-Hard v2)、Agent 应用 (BFCL-v3, TAU 系列) 等多个维度均表现出色。使用与部署环境依赖: 建议使用最新版本的 Hugging Face transformers 库 (>=4....

介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507，它是 Qwen3-30B-A3B 非思考模式的升级版本，该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型，其核心优势在于：综合能力显著提升：在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。知识覆盖更广：大幅增强了多语言场景下的长尾知识覆盖范围。用户对齐更优：在主观和开放式任务中能更好地符合用户偏好，生成更有帮助和更高质量的文本。长上下文能力增强：提升了在 256K 长上下文理解方面的能力。模型规格模型类型：因果语言模型 (Causal Language Models)，仅支持非思考模式。参数量：总参数量为 30.5B，激活参数量为 3.3B。模型架构：采用混合专家模型 (MoE) 架构，包含 48 个层、128 个专家（每次激活 8 个）。上下文长度：原生支持 262,144 (256K) tokens 的上下文长度。性能表现该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力，其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。推理能力：在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出，显著优于其前代模型和其他对比模型。代码能力：在 MultiPL-E 等多语言代码生成测试中表现优异。对齐能力：在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中，得分大幅领先其前代模型，并超过了 GPT-4o。使用与部署快速上手：模型已集成到最新的 Hugging Face transformers 库中，用户可以通过标准代码片段进行调用。服务部署：推荐使用 sglang (>=0....

介绍一下阿里 Qwen 团队最新开源的深度思考模型：Qwen3-235B-A22B-Thinking-2507

本文档介绍了 Qwen 团队最新发布的语言模型 Qwen3-235B-A22B-Thinking-2507。该模型是 Qwen3-235B-A22B 的增强版本，在思维和推理能力上进行了深度优化，旨在处理高度复杂的任务。 Qwen3-235B-A22B-Thinking-2507 是一款在推理能力上取得显著突破的开源模型。其核心优势在于：顶尖的推理性能：在逻辑、数学、科学和编程等需要深度思考的领域，该模型表现出色，在多个基准测试中达到了开源思维模型的顶尖水平。全面的通用能力：除了推理能力，模型在指令遵循、工具使用、文本生成和与人类偏好对齐等方面也得到了显著提升。增强的长上下文处理：模型支持 256K 的长上下文窗口，能更好地理解和处理长篇文档。专为复杂任务设计：官方强烈推荐在高度复杂的推理任务中使用此版本，因为它具有更长的“思考长度” (thinking length)。模型规格模型类型：因果语言模型 (Causal Language Models)，仅支持思维模式 (thinking mode)。参数规模：总参数量为 235B (2350亿)，激活参数量为 22B (220亿)。模型架构：采用 MoE (Mixture of Experts) 架构，包含 94 个层和 128 个专家，每次激活 8 个。上下文长度：原生支持 262,144 (即 256K) tokens 的上下文长度。性能表现该模型在一系列权威基准测试中与其他顶尖模型（如 OpenAI O4-mini, Gemini-2.5 Pro 等）进行了对比，并在多个方面展现了卓越性能：推理能力：在数学竞赛基准 AIME25 (得分 92.3) 和 HMMT25 (得分 83.9) 上表现突出。编程能力：在 LiveCodeBench (得分 74.1) 和 CFEval (得分 2134) 等编程基准测试中取得了领先成绩。知识与对齐：在 SuperGPQA (得分 64....

介绍一下阿里 Qwen 团队最新开源的编码模型：Qwen3-Coder-480B-A35B-Instruct

阿里巴巴 Qwen 团队发布的最新代码模型 Qwen3-Coder-480B-A35B-Instruct。该模型在代理式编程、长上下文处理和工具调用方面取得了显著进展。模型规格模型类型：因果语言模型 (Causal Language Models)。参数规模：采用混合专家 (MoE) 架构，总参数量为 480B (4800亿)，单次推理激活 35B (350亿) 参数。模型结构：包含 62 个层，160 个专家（每次激活 8 个），并使用分组查询注意力 (GQA) 机制。上下文长度：原生支持 256K tokens，为处理大规模代码和文档提供了基础。使用与集成快速上手：官方建议使用最新版本的 transformers 库进行调用，并提供了详细的 Python 代码示例。本地化支持：模型已得到 Ollama、LMStudio、MLX-LM、llama.cpp 等多种本地部署工具的支持。内存管理：如果遇到内存不足 (OOM) 的问题，建议将上下文长度缩短（例如 32,768）。代理式编码 (Agentic Coding) 工具调用：模型的核心优势之一是其出色的工具调用能力。用户可以像使用 OpenAI API 一样，轻松定义和调用自定义函数（工具）。专用格式：模型采用了为函数调用特别设计的格式，以提升其作为代理的效率和准确性。最佳实践推荐参数：为获得最佳生成效果，建议设置 temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05。输出长度：建议为大多数查询设置 64K tokens 的最大输出长度，以确保模型能完整地生成复杂代码或回答。模型表现 Qwen3-Coder-480B-A35B-Instruct 上线近一周后，在 OpenRouter 上 Qwen 模型调用量翻了 5 倍，排名第四，仅次于 DeepSeek。在 HuggingFace 近七日 Trending 上 Qwen3-Coder 也位列第一。在LLMArena WebDev 上也和 Gemin 2....

介绍一下阿里 Qwen 团队最新开源模型：Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式（non-thinking mode）下运行的大型语言模型，相较于前一版本，在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代，官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型，以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考，也有 Thinking 模型的深度思考，但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面：通用能力增强：在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。知识覆盖更广：大幅提升了在多种语言下的长尾知识覆盖范围。用户对齐更优：在主观性和开放式任务中能更好地符合用户偏好，生成更有帮助和更高质量的文本。长上下文能力提升：增强了对 256K 超长上下文的理解能力。模型规格模型架构：该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型（Causal Language Model），采用了专家混合（MoE）架构，包含 128 个专家，每次激活 8 个。模型层数：共 94 层。上下文长度：原生支持 262,144 (256K) tokens 的超长上下文。运行模式：此模型仅支持非思考模式，输出中不会生成 <think></think> 标签。性能表现基准测试：在多个行业标准基准测试中，Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型，并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。突出领域：在推理能力测试（如 AIME25 得分 70.3，ZebraLogic 得分 95.0）和部分知识问答测试（如 CSimpleQA 得分 84.3）中表现尤为出色，显著超越了竞争对手。使用与部署快速上手：可通过最新版的 Hugging Face transformers 库轻松调用模型。服务部署：推荐使用 sglang 或 vllm 等框架进行服务化部署，以获得最佳性能。本地运行：支持 Ollama、LMStudio、llama....