智谱 | FisherAI

智谱在 2025 年7 月 29 日开源了两个全新的旗舰大语言模型：GLM-4.5 和 GLM-4.5-Air。其核心目标是打破现有模型在特定领域（如推理、编码）表现突出但综合能力不足的局限，将卓越的推理、编码和 Agent（智能体）能力统一到单个模型中。该系列模型采用 MoE（混合专家）架构，并具备创新的混合推理模式，可根据任务复杂性在用于深度思考的 thinking mode 和用于即时响应的 non-thinking mode 之间切换。在综合性能评测中，GLM-4.5 在与业界主流模型的对比中位列第三，展现出强大的竞争力，并在性能与模型规模的权衡中实现了高效率。该模型已通过 Z.ai 平台、API 接口及开源权重等多种方式向用户开放。核心内容发布新一代旗舰模型：正式推出 GLM-4.5 和 GLM-4.5-Air 两个新模型，旨在统一并提升模型的综合能力。统一三大核心能力：致力于将推理（Reasoning）、编码（Coding）和智能体（Agentic）三大关键能力融合于单一模型，以满足日益复杂的应用需求。创新的混合推理模式：模型内置 thinking mode（思考模式）和 non-thinking mode（非思考模式），前者用于处理复杂任务，后者用于快速响应，实现了性能与效率的平衡。卓越的综合性能：在覆盖 Agent、推理和编码三大领域的 12 个基准测试中，GLM-4.5 综合排名第三，证明了其在行业内的领先地位。先进的技术架构与训练方法：采用 MoE 架构，并通过专门设计的强化学习框架 slime 对 Agent 能力进行深度优化，最终通过“专家蒸馏”技术整合各项专长。关键细节模型参数与性能排名模型规模：GLM-4.5 拥有 3550 亿总参数和 320 亿活跃参数；GLM-4.5-Air 则为 1060 亿总参数和 120 亿活跃参数。综合排名：在与 OpenAI、Anthropic、Google 等多家机构模型的对比中，GLM-4.5 综合排名第三，GLM-4.5-Air 排名第六。 Agent (智能体) 能力基础能力：模型提供 128k 上下文长度和原生函数调用（Function Calling）能力。基准测试表现：在 τ-bench 和 BFCL-v3 基准上，其性能与 Claude 4 Sonnet 相当。在网页浏览基准 BrowseComp 上，其正确率达到 26....