介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-30B-A3B-Instruct

Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简,旨在保持卓越性能的同时提高效率,特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计,并通过特殊的函数调用格式,为开发者提供了强大的工具集成能力。 模型亮点 卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中,该模型在开源模型中表现出众。 长上下文能力: 原生支持 256K tokens 的上下文长度,并可通过 Yarn 技术扩展至 1M tokens,能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台,并设计了专门的函数调用 (function call) 格式,便于工具集成和自动化任务。 模型规格 模型类型: 因果语言模型 (Causal Language Models)。 参数量: 总参数量为 30.5B,激活参数量为 3.3B。 架构: 包含 48 个层,采用分组查询注意力 (GQA) 机制,其中查询 (Q) 有 32 个注意力头,键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构,共有 128 位专家,每次激活 8 位。 上下文长度: 原生支持 256K 上下文。 特别说明: 此模型仅支持非思考模式,不会在输出中生成 <think></think> 标记。 使用与部署 环境要求: 强烈建议使用 transformers 库的最新版本(低于 4....

August 1, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-30B-A3B-Thinking-2507

Qwen 团队在 2025 年7 月 30 号开源了的最新语言模型 Qwen3-30B-A3B-Thinking-2507。该模型在 Qwen3-30B-A3B 的基础上,进一步提升了深度推理和思考能力,专为处理高度复杂的任务而设计。 Qwen3-30B-A3B-Thinking-2507 是一款经过深度优化的语言模型,其核心优势在于卓越的推理能力。该模型在过去三个月中持续迭代,显著增强了在逻辑、数学、科学、编码等需要专业知识的领域的表现。同时,它在指令遵循、工具使用、文本生成等通用能力以及对 256K 长上下文的理解能力方面也得到了显著提升。因此,官方强烈推荐在处理高复杂度推理任务时使用此版本。 模型规格与特性 模型类型: 因果语言模型 (Causal Language Model),采用 MoE (Mixture-of-Experts) 架构。 参数规模: 总参数量为 30.5B,激活参数量为 3.3B。 架构信息: 模型包含 48 个层,128 个专家,每次前向传播激活 8 个专家。 上下文长度: 原生支持高达 262,144 (256K) tokens 的上下文窗口。 核心模式: 模型仅支持 “thinking mode”,该模式默认启用,会自动在输出中包含思考过程。 性能表现 该模型在一系列行业标准基准测试中展现了强大的性能,尤其在以下方面提升显著: 推理能力: 在 AIME25 (数学推理) 和 HMMT25 (数学竞赛) 等高难度测试中得分大幅领先前代模型及部分竞品。 编码能力: 在 LiveCodeBench 和 OJBench 等编码测试中表现优异。 综合能力: 在知识问答 (MMLU-Pro)、与人类偏好对齐 (Arena-Hard v2)、Agent 应用 (BFCL-v3, TAU 系列) 等多个维度均表现出色。 使用与部署 环境依赖: 建议使用最新版本的 Hugging Face transformers 库 (>=4....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507,它是 Qwen3-30B-A3B 非思考模式的升级版本,该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型,其核心优势在于: 综合能力显著提升:在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。 知识覆盖更广:大幅增强了多语言场景下的长尾知识覆盖范围。 用户对齐更优:在主观和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力增强:提升了在 256K 长上下文理解方面的能力。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持非思考模式。 参数量:总参数量为 30.5B,激活参数量为 3.3B。 模型架构:采用混合专家模型 (MoE) 架构,包含 48 个层、128 个专家(每次激活 8 个)。 上下文长度:原生支持 262,144 (256K) tokens 的上下文长度。 性能表现 该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力,其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。 推理能力:在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出,显著优于其前代模型和其他对比模型。 代码能力:在 MultiPL-E 等多语言代码生成测试中表现优异。 对齐能力:在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中,得分大幅领先其前代模型,并超过了 GPT-4o。 使用与部署 快速上手:模型已集成到最新的 Hugging Face transformers 库中,用户可以通过标准代码片段进行调用。 服务部署:推荐使用 sglang (>=0....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-235B-A22B-Thinking-2507

本文档介绍了 Qwen 团队最新发布的语言模型 Qwen3-235B-A22B-Thinking-2507。该模型是 Qwen3-235B-A22B 的增强版本,在思维和推理能力上进行了深度优化,旨在处理高度复杂的任务。 Qwen3-235B-A22B-Thinking-2507 是一款在推理能力上取得显著突破的开源模型。其核心优势在于: 顶尖的推理性能:在逻辑、数学、科学和编程等需要深度思考的领域,该模型表现出色,在多个基准测试中达到了开源思维模型的顶尖水平。 全面的通用能力:除了推理能力,模型在指令遵循、工具使用、文本生成和与人类偏好对齐等方面也得到了显著提升。 增强的长上下文处理:模型支持 256K 的长上下文窗口,能更好地理解和处理长篇文档。 专为复杂任务设计:官方强烈推荐在高度复杂的推理任务中使用此版本,因为它具有更长的“思考长度” (thinking length)。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持思维模式 (thinking mode)。 参数规模:总参数量为 235B (2350亿),激活参数量为 22B (220亿)。 模型架构:采用 MoE (Mixture of Experts) 架构,包含 94 个层和 128 个专家,每次激活 8 个。 上下文长度:原生支持 262,144 (即 256K) tokens 的上下文长度。 性能表现 该模型在一系列权威基准测试中与其他顶尖模型(如 OpenAI O4-mini, Gemini-2.5 Pro 等)进行了对比,并在多个方面展现了卓越性能: 推理能力:在数学竞赛基准 AIME25 (得分 92.3) 和 HMMT25 (得分 83.9) 上表现突出。 编程能力:在 LiveCodeBench (得分 74.1) 和 CFEval (得分 2134) 等编程基准测试中取得了领先成绩。 知识与对齐:在 SuperGPQA (得分 64....

July 25, 2025 · 2 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-480B-A35B-Instruct

阿里巴巴 Qwen 团队发布的最新代码模型 Qwen3-Coder-480B-A35B-Instruct。该模型在代理式编程、长上下文处理和工具调用方面取得了显著进展。 模型规格 模型类型:因果语言模型 (Causal Language Models)。 参数规模:采用混合专家 (MoE) 架构,总参数量为 480B (4800亿),单次推理激活 35B (350亿) 参数。 模型结构:包含 62 个层,160 个专家(每次激活 8 个),并使用分组查询注意力 (GQA) 机制。 上下文长度:原生支持 256K tokens,为处理大规模代码和文档提供了基础。 使用与集成 快速上手:官方建议使用最新版本的 transformers 库进行调用,并提供了详细的 Python 代码示例。 本地化支持:模型已得到 Ollama、LMStudio、MLX-LM、llama.cpp 等多种本地部署工具的支持。 内存管理:如果遇到内存不足 (OOM) 的问题,建议将上下文长度缩短(例如 32,768)。 代理式编码 (Agentic Coding) 工具调用:模型的核心优势之一是其出色的工具调用能力。用户可以像使用 OpenAI API 一样,轻松定义和调用自定义函数(工具)。 专用格式:模型采用了为函数调用特别设计的格式,以提升其作为代理的效率和准确性。 最佳实践 推荐参数:为获得最佳生成效果,建议设置 temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05。 输出长度:建议为大多数查询设置 64K tokens 的最大输出长度,以确保模型能完整地生成复杂代码或回答。 模型表现 Qwen3-Coder-480B-A35B-Instruct 上线近一周后,在 OpenRouter 上 Qwen 模型调用量翻了 5 倍,排名第四,仅次于 DeepSeek。在 HuggingFace 近七日 Trending 上 Qwen3-Coder 也位列第一。在LLMArena WebDev 上也和 Gemin 2....

July 23, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源模型:Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式(non-thinking mode)下运行的大型语言模型,相较于前一版本,在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代,官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面: 通用能力增强:在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。 知识覆盖更广:大幅提升了在多种语言下的长尾知识覆盖范围。 用户对齐更优:在主观性和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力提升:增强了对 256K 超长上下文的理解能力。 模型规格 模型架构:该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型(Causal Language Model),采用了专家混合(MoE)架构,包含 128 个专家,每次激活 8 个。 模型层数:共 94 层。 上下文长度:原生支持 262,144 (256K) tokens 的超长上下文。 运行模式:此模型仅支持非思考模式,输出中不会生成 <think></think> 标签。 性能表现 基准测试:在多个行业标准基准测试中,Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型,并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。 突出领域:在推理能力测试(如 AIME25 得分 70.3,ZebraLogic 得分 95.0)和部分知识问答测试(如 CSimpleQA 得分 84.3)中表现尤为出色,显著超越了竞争对手。 使用与部署 快速上手:可通过最新版的 Hugging Face transformers 库轻松调用模型。 服务部署:推荐使用 sglang 或 vllm 等框架进行服务化部署,以获得最佳性能。 本地运行:支持 Ollama、LMStudio、llama....

July 22, 2025 · 1 min · fisherdaddy