月之暗面杨植麟:Kimi K2 发布后的深度思考与未来之路

在 Kimi K2 模型发布后,月之暗面创始人杨植麟接受了张小珺的专访。他深入探讨了从“缸中之脑”到 Agent 的 AI 范式转变,攀登“无限雪山”的哲学思考,以及 Kimi 的技术路线与未来,如果有时间建议大家去看看原文。本次访谈中核心围绕他在大模型创业第二年的思考、公司最新发布的 Kimi K2 模型,以及他对 AI 发展的哲学观。杨植麟将 AI 研发比作攀登一座“无限的山”,强调在不断解决问题的过程中拓展知识边界。 以下内容是对此次访谈简单的摘要,由 FisherAI Chrome 插件完成,模型为:Gemini 2.5 Pro。 主要观点 AI 研发是永无止境的探索:杨植麟深受《无穷的开始》一书影响,认为 AI 发展如同攀登一座没有顶峰的雪山。核心理念是“问题不可避免,但问题可以解决”,每一次技术突破都会带来新的挑战,从而驱动知识和技术的无限进步。 AI 范式正从“缸中之脑”走向与世界交互:当前 AI 的关键转变是从只能进行内部思考的推理模型,演变为能够通过多轮、使用工具与外部世界交互的 Agent (智能体)。这一转变的核心是 test-time scaling,即在推理时投入更多计算以完成更复杂的任务。 K2 模型的战略核心是提升效率与 Agent 能力:面对高质量数据有限的瓶颈,K2 模型的核心目标是提升 token efficiency (数据利用效率),通过 Muon 优化器等技术,让模型“吃一份数据,学到两份的知识”。同时,重点发展 Agentic (智能体式) 能力,让模型具备解决复杂问题的泛化能力。 Agent 的最大挑战是泛化能力:当前 Agent 训练容易过拟合特定基准测试 (如 SWE-bench),导致在真实、多样的场景中表现不佳。杨植麟认为,未来的突破口在于用更 AI native 的方式训练 AI,即让模型参与自身的研发过程 (L4 Innovator 阶段),以解决泛化性难题。 组织管理与科研创新的哲学相通:杨植麟将强化学习 (RL) 的理念应用于团队管理,认为应以设定目标和奖励 (RL) 为主,辅以必要的指导 (SFT),从而激发团队的创造力和主观能动性,避免因过度指导而扼杀创新。 关键细节 关于 Kimi K2 模型: 定位:Kimi K2 是一个于 2025 年 7 月发布的、基于 MoE 架构的开源编程和 Agentic 大语言模型。杨植麟在内部将其比作“乔戈里峰”,象征其攀登难度虽大但并非终点。 技术创新:为解决数据墙问题,K2 重点提升 token efficiency。关键技术包括首次在大规模模型训练中采用经优化的 Muon 优化器,以及通过数据改写 (Rephrase) 策略增强模型对高质量数据的吸收和泛化能力。 关于 AI 范式演进: 从“缸中之脑”到 Agent:“缸中之脑”指模型仅在内部进行长思考推理 (Reasoning);而 Agent 则能通过工具 (如浏览器、代码解释器) 与外部世界交互,完成多步骤的复杂任务。 “一方产品”趋势:模型公司自己下场做产品 (如 Claude Code),将模型、工具和环境进行端到端整合训练,相比第三方开发者在 API 上搭建应用,这种方式的上限可能更高。 L1 到 L5 并非严格线性:杨植麟认为 OpenAI 提出的 L1 到 L5 等级是重要的里程碑,但并非严格的先后依赖关系。例如,解决 L3 (Agent) 的泛化问题,可能需要 L4 (Innovator) 的能力,即用 AI 训练 AI。 关于战略与思考: 开源策略:杨植麟承认开源有市场博弈的因素,但更希望通过与社区分享技术,共同加速技术进步。他认为开源主要赋能下游应用,但模型核心能力的提升仍依赖原厂。 商业模式:当前 AI 公司的商业模式主要为 API 服务和“一方产品”。月之暗面会进行尝试,但当前首要目标仍是提升模型能力,相信技术领先自然会带来商业成功。 AI 的终极价值:杨植麟将 AI 视为“人类文明的放大器”,能够极大地加速科学发现和知识创造的进程。他认为,即使 AI 能替代大部分创造性工作,人类的独特价值依然存在于“体验”和“爱”。

August 28, 2025 · 1 min · fisherdaddy

Moonshot AI 创始人杨植麟关于 AGI 的核心认知

这篇文章是来自于最近火热的腾讯科技对杨植麟的采访:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,核心内容基于 Claude 和 Gemini 提取后做了稍加整理。有趣的是,过几天腾讯科技又发了一篇访谈:朱啸虎讲了一个中国现实主义AIGC故事,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 核心认知 “AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。” 解释:杨植麟强调AI不应只关注短期商业化,而是要着眼于长远地改变世界。 “开源落后于闭源,这也是个事实。因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation。” 解释:杨植麟分析了目前开源模型发展落后闭源模型的原因,并预测未来闭源模型将主导。 “要ride the wave。” 解释:顺应AI浪潮,把握时机创业。 “AGI需要新的组织方式。” 解释:AGI的发展需要一种全新的组织形式,结合科研、工程和商业。 “它需要人才聚集、资本聚集。” 解释:发展AGI需要优秀人才和大量资金的投入。 “如果你能用scale解决的问题,就不要用新的算法解决。” 解释:强调scale法则,即通过扩大模型规模而非新算法来解决问题。 “它(long context)是新的计算机内存。” 解释:长文本是新型计算机的内存,对发展AGI至关重要。 “我觉得现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。” 解释:Sora代表了视频生成能力的阶跃式突破。 “AGI空间很大,在通用能力基础上去有差异化,这个更可能发生。” 解释:尽管通用能力会趋同,但未来可能出现差异化的AGI系统。 “user scaling和model scaling需要同时做。最终在这两者之间完美结合。"(指技术理想和商业现实) 解释:伟大的AGI公司需要技术理想主义和现实商业考量的完美结合。 “接下来会有两个大的milestone。"(统一世界模型和自主演化) 解释:未来两大里程碑是统一多模态的世界模型,以及无需人类数据输入的自主演化能力。 “不能只满足做到GPT-4的效果。保持非共识思维,他多次强调要"找到非共识” 解释:不应只盲目追赶GPT-4,而要寻求更大突破。要有独特的思路和判断,不能被现有观点所束缚。这种非共识思维对于创新至关重要。 “AGI最终会是一个跟所有用户co-work产生的东西。” 解释:AGI将通过与大量用户互动协作而逐步完善。 “scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。” 解释:解释了scale law成为AGI发展第一性原理的原因。 “技术是这个时代唯一新变量,其他变量没变。” 解释:在当前时代,技术进步是唯一的新变量,其他条件并未改变。 “AGI组织需科学、工程、商业三位一体” 解释:不能是纯研究机构,也不能是单纯的商业公司,AGI组织要将科研、工程和商业深度融合。 “先进视觉模型将连接数字世界与物理世界” 解释:视觉模型的突破将最终使AI能感知并介入物理世界。 “多模态是确定趋势,但统一架构还是难题” 解释:视频、图像等多模态能力必然到来,但找到真正统一的架构尚需时日。 “会有更多的consolidation,会有更少的公司。” 解释:预计未来会有更多资源整合,而存活的AGI公司会减少。 “我们应该学习OpenAI的技术理想主义。如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。” 解释:赞赏OpenAI的技术理想主义精神,倡导创新思维。 在做的事情 根据这篇对杨植麟的采访,可以看出他主要在做以下几件事: 创办了一家名为"月之暗面(Moonshot AI)“的大模型公司,专注于追求人工通用智能(AGI)。 开发名为"Kimi"的大模型AI助手,支持20万汉字长文本输入,以探索长语境建模能力。 专注于模型本身的技术突破和扩展,而非仅仅应用落地。他认为模型规模扩展(model scaling)是通向AGI的关键。 招募顶尖AI人才,打造高密度人才团队。团队目前约80人。 持续融资以获得训练大模型所需算力资源。公司已经完成数轮融资,估值数十亿美元。 构建一个整合科学、工程和商业的AGI系统和组织,类似登月计划。通过产品和用户互动发现新的应用机会。 追求长期理想主义目标,而非短期应用落地。他认为AGI将在未来10-20年内改变世界。 总的来说,杨植麟专注于大模型的基础研究和技术突破,以期最终实现人工通用智能,而非过多关注短期商业化。 个人履历 教育背景: 本科: 清华大学计算机系 博士: 卡内基梅隆大学计算机学院 导师:...

March 8, 2024 · 1 min · fisherdaddy