介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-30B-A3B-Instruct
Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简,旨在保持卓越性能的同时提高效率,特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计,并通过特殊的函数调用格式,为开发者提供了强大的工具集成能力。 模型亮点 卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中,该模型在开源模型中表现出众。 长上下文能力: 原生支持 256K tokens 的上下文长度,并可通过 Yarn 技术扩展至 1M tokens,能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台,并设计了专门的函数调用 (function call) 格式,便于工具集成和自动化任务。 模型规格 模型类型: 因果语言模型 (Causal Language Models)。 参数量: 总参数量为 30.5B,激活参数量为 3.3B。 架构: 包含 48 个层,采用分组查询注意力 (GQA) 机制,其中查询 (Q) 有 32 个注意力头,键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构,共有 128 位专家,每次激活 8 位。 上下文长度: 原生支持 256K 上下文。 特别说明: 此模型仅支持非思考模式,不会在输出中生成 <think></think> 标记。 使用与部署 环境要求: 强烈建议使用 transformers 库的最新版本(低于 4....