快速了解一下月之暗面开源的全球首个万亿参数级大模型 Kimi K2
Moonshot AI(「月之暗面」)在 2025 年 7 月 11 日正式发布并开源了旗下大模型 Kimi K2,并发布技术报告,让我们来快速了解一下。 关于 Kimi K2 的基本信息 Kimi K2 是个非推理模型,专注于文本和代码任务,不具备图像处理能力。 采用 MoE 架构,拥有总参数约 1T(1 万亿)、激活参数 32B 模型上下文 128K 词汇表大小 16K 模型包含 384 个专家,每个 token 会选择 8 个专家进行计算 支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等 训练方法:Kimi K2 在预训练阶段使用改进的 MuonClip 优化器替代传统 Adam,成功在 15.5T Token 规模的数据上进行稳定训练,且训练不稳定性为零,解决了万亿参数模型训练中的不稳定(如最大对数值爆炸)问题。 值得一提的是,K2 引入了一套大规模 Agentic 任务数据合成和强化学习训练流程:通过模拟数百个领域的工具((包括真实的 MCP 工具和合成工具))使用场景生成海量高质量训练数据,并让模型充当自己的评判员(自我反馈机制)进行通用强化学习。这些创新使 K2 在知识推理、数学和编程等任务上具备了出色的泛化能力和自主决策能力。 Kimi K2 系列提供两个主要版本: Kimi-K2-Base:基础模型,适合需要进行深度微调和定制化解决方案的研究者和开发者。 Kimi-K2-Instruct:指令微调模型,适用于通用的聊天和智能体应用场景,无需长时间思考即可快速响应。 Benchmark 成绩 Agent与编码能力 从各个评测集的结果来看,其 agent 能力 和编码能力与 Anthropic 的 Claude4 模型差距很小,而数学解题能力则优于 Claude 4 模型。...