朱啸虎:2025年没有AI泡沫,只有更残酷的“入口之战”

本文整理自2025 年底张小珺对朱啸虎(金沙江创投主管合伙人)的最新访谈。朱啸虎是一个非常有意思的投资人,每次访谈中抛出的观点都非常的犀利且具有前瞻性。对于 AI 我们既要仰望星空,也要脚踏实地,如果说萨姆奥特曼和梁文锋是在仰望星空,目标是实现 AGI,而朱啸虎就是那个最佳脚踏实地的人。在 Gemini 3 Pro 的帮助下,我把本次采访中最核心的内容转成了一篇精彩的文章,以下为文章内容。 最近很多人都在问同一个问题:站在2025年的门槛上,AI是不是已经有泡沫了? 对此,我的回答很干脆:至少三年内,我看不到泡沫。 当菜市场的大妈都在聊泡沫的时候,泡沫肯定还没破;当大家都还是像现在这样将信将疑、甚至二级市场还在故意回调吓唬人的时候,这反而是进场的好时机。 为什么这么笃定?看数据。现在不仅是OpenAI,中国很多并不知名的创业公司,每天的Token消耗量都在几百亿的级别。这种十几倍的爆发式增长,说明应用端是真的有人在用,而且用的量极大。 这就是为什么这甚至不能被称为泡沫,我们现在的算力、GPU卡甚至电力都已经跟不上需求的爆发了。 在这场近46分钟的深度复盘中,我想和大家分享一下这一年来我的观察,以及在这个“如果不搞现实主义就要饿死”的当下,创业者该如何在巨头的夹缝中求生。 一、 Sam Altman 变现实了:AGI是梦,DAU才是命 今年最大的变化,就是大家越来越“现实”了。 你看OpenAI的Sam Altman,今年几乎不怎么提AGI(通用人工智能)那种宏大叙事了。为什么?因为AGI太难了,那个饼画得太远。现在的OpenAI像极了一个成熟的VC投资人做出来的公司——务实。 ChatGPT最近的动作非常清晰:做Search(搜索)、做Canvas(浏览器)、甚至推出了群聊功能。这一连串动作背后的逻辑只有一个:从周活(WAU)向日活(DAU)转型。 纯粹的AI对话很容易变成一种“周活”甚至“月活”工具(这也是为什么像Kimi这类产品其实很难防守),只有切入高频场景,哪怕是做个群聊里的“点赞氛围组”,也是在争夺流量入口。 OpenAI现在的野心不是取代人类,而是想成为下一个超级入口(Super App)。一旦群聊生态建立,它下一步就是要重构社交关系链。这才是Meta(Facebook)最害怕的事情。 所以,这不再是模型之争,而是类似当年移动互联网时代的微信、WhatsApp之争。 二、 中国市场的“六小龙”与“扫地僧” 回到国内,格局还处于早期,但我非常看好字节跳动(豆包)。他们的流量优势太明显,产品体验打磨得也极好。阿里的通义千问虽然动作稍微慢了点,在“既要电商又要AI”的双线作战中有点纠结,但底子很厚,模型能力绝对处于第一梯队。 这里必须要特别提一下DeepSeek(深度求索)。 如果在2024年初你问我,我也许还看不准,但现在回看,DeepSeek简直是中国AI界的“功臣”。如果没有他们的开源,人类的AI技术很可能就被几家美国私有公司垄断了。DeepSeek的存在,不仅让中国建立了独立的开源生态,也倒逼了模型价格的快速下降。 虽然这对做模型的商业化公司来说是个噩耗——当Token价格被大厂(如字节火山引擎、阿里云)打到地板价,甚至“送”的时候,创业公司靠卖API基本没戏了。 但对做应用的人来说,这简直是黄金时代。 三、 投资逻辑:偏离“共识”15度 现在的VC圈很卷,美国和中国的投资人都在盯着同样的几个赛道(比如人形机器人)。当一个赛道所有人都看明白、都想投的时候,我就不碰了。 我的策略是**“偏离共识15度”**。你要找那些大厂看不上、不想干、或者还没反应过来的“脏活累活”。 这一年我投了十几家公司,有些非常有意思: 不投人形机器人,投“牛马机器人”:大家都在卷那个双足行走的人形机器人,太贵且没场景。我投什么?海里洗船的机器人。这活儿人类干着危险,海水浑浊又腐蚀,但需求是刚性的;我还投了按摩机器人,不仅能按得舒服,还能一边按一边陪你聊天,甚至给你推销办卡,性价比极高。 AI陪伴与玩具:这是一个被严重低估的市场。成年人,特别是男性,其实非常需要情绪价值。我们投的一家AI陪伴公司,不到半年数据就爆了,用户粘性和付费意愿高得吓人。 垂直SaaS出海:不需要一定要做大模型,拿一个开源的7B或30B小模型,做私有化部署,去解决一个极度垂直的问题。比如我们投的给第三方做智能穿戴解决方案的公司,生意好得不得了。 四、 给创业者的忠告:活在夹缝里 如果你是创业者,现在不要再跟我讲什么“中国版OpenAI”或者“千亿美金”的故事了。讲这种宏大叙事的,我一般聊10分钟就结束了。 现在的机会在“夹缝”里。 当年的移动互联网,大厂看不上打车(滴滴)、看不上送外卖(美团/饿了么),所以给了创业者几年“猥琐发育”的时间。 但AI时代不同,大厂太焦虑了,反应速度极快。你做一个功能,如果是纯工具(比如修图、润色),大厂的模型升级一次你就没了。 生存法则: 离大厂三条马路:不要做大厂主业延伸线上的东西,要做大厂觉得苦、脏、累,或者数据极其封闭垂直的领域。 不要迷信SOTA(State Of The Art):现在的创业公司去刷榜、去搞模型排名没有任何意义。你花几千万美金训练出来的模型,可能也就领先大厂一个月。对于绝大多数应用场景,一个低成本的、响应快的开源小模型完全够用。 一定要有商业化能力:不要想着先烧钱再赚钱。今天的资本市场环境,如果你不能证明你的造血能力,不管是港股上市还是后续融资,都会非常困难。 五、 未来推演:2026年,中国有机会 如果不确定性是唯一的确定性,那么只有把时间拉长来看才清晰。 短期看,美国在模型层面的确还领先3-6个月。但是限制美国AI发展的最大瓶颈即将到来——电力和基础设施。 美国的电网建设、核电站审批极其缓慢。而中国在光伏、核电以及数据中心建设上的执行力是惊人的。未来拼的不是谁的模型参数大,而是谁能更便宜、更稳定地提供大规模算力。 我相信,凭借中国的开源生态和基础设施优势,三五年后,中国的AI应用完全有机会反超美国。 所以,别管那个所谓“泡沫”的争论了。对于中国创业者来说,现在的策略应该非常简单直接: 别想大故事,找到那个缝隙,全速前进。这是属于实干家的时代。

December 11, 2025 · 1 min · fisherdaddy

埃隆·马斯克深度访谈:给年轻人的建议、AI 的未来与战胜恐惧

本文整理自 9 年前也就是 2016 年萨姆奥特曼(当时还是 YC 的总裁)对埃隆·马斯克(Elon Musk)的一次非常经典的访谈,时至今日来看这次访谈依然不过时,且非常具有前瞻性。马斯克在采访中不仅谈到了年轻人该如何选择人生方向,还深入剖析了他对AI、火星殖民以及克服恐惧的底层逻辑。在 Gemini 3 Pro 的辅助下,我把本次采访的内容转成了一篇精彩的文章,以下为文章内容。 埃隆·马斯克给年轻人的建议:别总以此为目标去“改变世界” 如果你现在22岁,正站在人生的十字路口,马斯克并没有建议你上来就去挑战“改变世界”这种宏大叙事。 1. 重新定义“有用” 马斯克认为,判断一件事是否有价值,核心在于它是否对社会有用。这不一定非得是惊天动地的大事。哪怕你只是开发了一个小游戏,或者改进了照片分享的功能,只要它能给很多人带来一点点快乐或便利,这就是有价值的。 他提出了一个很有趣的计算方式:实用性的增量(Utility Delta) × 受众数量。 做一件对少数人有巨大改变的事是极好的。 做一件对无数人有微小改变的事,同样伟大。 两者的“曲线下面积”其实是相当的。所以,不要因为事情看起来微不足道就觉得没意义。 2. 只有这三件事值得现在的年轻人全力以赴 虽然马斯克年轻时有五个想解决的问题(多行星生存、可持续能源、互联网、以及接下来的两项),但他认为如果你现在入局,有三个领域最能影响人类未来: 人工智能(AI):这是近期内对人类影响最大的单一变量。现在的关键是确保它的发展方向是良性的。 基因工程:如果我们能通过基因重编程解决遗传疾病、治愈老年痴呆或失智症,那将是人类的福音。 脑机接口(高带宽人脑接口):这是马斯克非常看重的一点。他认为人类其实已经是“半机器人”了——我们的手机、电脑、邮件就是我们的“数字延伸”。但问题在于带宽。我们的大脑(皮层)和数字设备之间的连接太慢了(想想你用手指打字的速度)。解决这个“输入输出瓶颈”,是未来的关键。 3. 关于读博的建议 想要变得有用,非得读个博士吗?马斯克的回答很干脆:大多数情况下,不需要。 除非你研究的技术正处于爆发的临界点(inflection point),否则很多时候,在这个快速变迁的时代,学术研究可能会让你与实际应用脱节。 直面恐惧与“熵增”定律 很多人觉得马斯克是无所畏惧的,毕竟只有疯子才会同时搞火箭和电动车。但他在采访中坦白:“我其实经常感到恐惧,而且是很强烈的恐惧。” 即使只有10%的成功率,也要去做 不管是SpaceX还是Tesla,马斯克在起步时给自己估算的成功率都不到10%。他甚至已经做好了“最后会失去一切”的心理准备。 那为什么还要做?这时候**“宿命论”**反而帮了大忙。既然已经接受了大概率会失败的结果,恐惧感就减轻了。他的想法很简单:只要能把球往前推一点点,就算公司倒闭了,也许后来者能接过接力棒继续跑,那也是有意义的。 技术不会自动进步 这是一个非常深刻的历史观。马斯克提醒我们,“熵”也是站在我们对立面的。 很多人误以为技术会随着时间推移自动变好。大错特错。 古埃及人曾建造了金字塔,後來忘记了怎么建,甚至忘记了怎么读象形文字。 古罗马人曾拥有惊人的水道和道路系统,後來也都遗失了。 1969年我们能登月,后来只能飞近地轨道,航天飞机退役后,美国甚至一度无法载人上天。 如果没有一群聪明人发疯似地(work like crazy)去维护和创新,技术实际上是会倒退的。 火星殖民与AI的终局 火星:从“不可能”到“十年内” 几年前,马斯克自己都不确定火星殖民是否只是个幻想。但现在,他非常确定这是可行的。他预测在未来大概10年(甚至9年)内,我们有望把足够多的人送上火星。 有趣的小知识:去火星的“网速”会有延迟。地球到火星光速大概需要4到20分钟(取决于两者的位置),所以你在火星上跟地球视频通话会有明显的滞后。 AI的最佳结局:民主化与人机共生 关于AI的未来,马斯克最担心的不是AI这技术本身产生自我意识,而是权力的集中。如果超级AI掌握在某个独裁者、某个国家的情报机构或极少数人手中,那是极其危险的。 他提出的解决方案是:AI技术的民主化。 这也是OpenAI成立的初衷(尽管当时才成立六个月)——让技术尽可能普及,而不是被垄断。 更进一步,人类如何不被淘汰?答案还是回到脑机接口。 人类的大脑分两部分: 边缘系统(Limbic System):原始大脑,负责本能、情绪。 大脑皮层(Cortex):负责理性思考。 目前这两者在我们脑子里配合得还不错。未来的方向是将AI变成我们的“第三层大脑”。通过高带宽接口,让人类与AI共生。既然我们就是AI,就不存在“AI控制人类”的问题了。 真实的马斯克:我不是个“生意人” 很多外界的年轻人想成为“下一个埃隆·马斯克”,往往是看到了光鲜亮丽的一面。在采访的最后,马斯克透露了他真实的工作状态。 他根本不觉得自己在做传统意义上的“商业(Business)”。 在SpaceX,虽然他是CEO,但他把法务、财务、销售都交给了Gwynne Shotwell。 他80%的时间都花在了工程和设计上。 并不是坐在办公室签文件 如果你去SpaceX或Tesla找他,你大概率会在设计室或工厂产线上看到他。...

December 11, 2025 · 1 min · fisherdaddy

我逆向工程了 ChatGPT 的记忆系统,这是我的发现!• Manthan Gupta

本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered ChatGPT’s Memory System, and Here’s What I Found!。作者通过逆向工程发现了 ChatGPT 的记忆系统的实现方式,与普遍猜测不同,ChatGPT 并没有使用复杂的向量数据库或针对对话历史的 RAG(检索增强生成)技术。相反,它采用了一种分层架构,主要由以下四个核心部分组成: 会话元数据 (Session Metadata) 这是在会话开始时一次性注入的临时信息,包括设备类型、浏览器信息、大致位置、订阅等级以及使用模式(如活跃频率)。 这些信息帮助模型根据用户当前的软硬件环境调整回复,但不会在会话结束后保留。 用户记忆 (User Memory) 这是一个专门用于存储长期事实的工具,例如用户的姓名、职业目标、健身习惯及个人偏好。 作者的案例中存储了 33 个事实。这些信息通常在用户明确要求(如“记住这个”)或模型检测到关键信息并获得隐含确认时被存储。 这些记忆作为一个独立的模块,会被注入到每一次未来的提示词(Prompt)中。 近期对话摘要 (Recent Conversations Summary) 系统不会检索过去对话的完整记录,而是保留一份轻量级的摘要列表。 该列表包含时间戳、对话标题以及用户消息的片段。 这种方法充当了用户近期兴趣的“粗略地图”,在避免高延迟和 Token 成本的同时,维持了跨对话的连续性。 当前会话消息 (Current Session Messages) 这是当前对话的完整历史记录,采用滑动窗口机制。 其容量基于 Token 数量限制而非消息条数。当达到限制时,旧消息会被移除,但用户记忆和对话摘要依然保留,以确保当前对话的连贯性。 传统的 RAG 系统需要对每条过去的消息进行嵌入(Embedding)和相似度搜索,成本高且延迟大。ChatGPT 的方法通过预计算轻量级摘要并直接注入,牺牲了部分历史细节,换取了更快的响应速度和更高的效率。 原文 当我问 ChatGPT 它记得关于我的什么时,它列出了从我的名字和职业目标到我目前的健身计划等 33 个事实。但它实际上是如何存储和检索这些信息的呢?为什么感觉如此无缝? 经过广泛的实验,我发现 ChatGPT 的记忆系统比我预期的要简单得多。没有向量数据库。没有基于对话历史的 RAG(检索增强生成)。相反,它使用四个不同的层:适应你环境的会话元数据、长期存储的显式事实、最近聊天的轻量级摘要以及当前对话的滑动窗口。 这篇博客详细剖析了每一层是如何工作的,以及为什么这种方法可能优于传统的检索系统。这里的所有内容都来自于通过对话对 ChatGPT 行为的逆向工程。OpenAI 并没有公布这些实现细节。 ChatGPT 的上下文结构 在理解记忆之前,重要的是要理解 ChatGPT 接收到的每条消息的完整上下文。结构如下: [0] 系统 指令 [1] 开发者 指令 [2] 会话 元数据 (临时的) [3] 用户 记忆 (长期 事实) [4] 最近 对话 摘要 (过去的 聊天, 标题 + 片段) [5] 当前 会话 消息 (本次 聊天) [6] 你的 最新 消息 前两个组件定义了高级行为和安全规则。它们不是本博客的重点。有趣的部分始于会话元数据。...

December 11, 2025 · 2 min · fisherdaddy

2025 AI 现状报告 • OpenRouter & a16z

这份报告基于 OpenRouter 平台超过 100 万亿 token 的数据,深入分析了截至 2025 年底的大型语言模型(LLM)使用现状。报告揭示了 AI 领域正从简单的文本生成向复杂的多步推理转变,开源模型正在重塑市场格局,且用户的使用习惯呈现出明显的全球化和多样化趋势。 主要观点 从模式匹配到多步推理的范式转变 随着 2024 年 12 月 5 日 OpenAI 发布 o1 模型,AI 领域迎来了转折点。行业重心从单次前向传递的模式生成,转移到了包含内部多步思考和规划的“推理”模型。这种转变加速了代理式(Agentic)工作流的部署。 开源模型与专有模型的双重生态 虽然专有模型(如 Anthropic 和 OpenAI 的产品)在高端任务中仍占主导,但开源模型(OSS)已占据约 30% 的市场份额。特别是来自中国的模型(如 DeepSeek 和 Qwen )增长迅速,不仅在成本上具有优势,在性能上也日益强劲,促使市场形成了多元化的竞争格局。 编程与角色扮演主导应用场景 与普遍认为 AI 主要用于生产力工具的印象不同,数据表明“创造性角色扮演”和“编程辅助”是两大核心用例。开源模型在角色扮演领域尤为流行,而编程任务则推动了长上下文和复杂推理的需求。 “灰姑娘水晶鞋”留存效应 用户留存率分析揭示了一种被称为“灰姑娘水晶鞋”的现象:当一个新模型首次完美解决某类用户的特定痛点(即“合脚”)时,这些早期用户群体会形成极高的忠诚度和长期留存,即使后续有新模型推出也不易流失。 关键细节 数据来源与规模 数据基础:研究基于 OpenRouter 平台上的真实交互元数据,涵盖超过 100 万亿 token 的流量,时间跨度主要集中在 2024 年底至 2025 年底。 隐私保护:分析仅基于元数据(如 token 数量、模型类型、地理位置标签),不涉及具体的提示词或生成内容。 开源模型的崛起与演变 市场份额:开源模型的使用量稳步上升,其中中国开发的开源模型在 2025 年下半年增长显著,部分周次占总流量的近 30% 。 竞争格局:市场不再由单一模型垄断。DeepSeek 曾占据主导,但目前 Qwen 、 Meta LLaMA 、 Mistral AI 等多家厂商均占有重要份额。 模型尺寸:市场出现了“中间地带”。用户不再只选择极小或极大的模型, 150 亿至 700 亿参数的“中等”模型因平衡了能力与效率而受到青睐。 代理式推理(Agentic Inference)的兴起 推理模型占比:到 2025 年底,经过推理优化的模型处理了超过 50% 的 token 流量。 序列长度增加:平均 Prompt(提示词)长度增加了约 4 倍,主要由编程任务驱动。编程任务的输入通常包含大量代码上下文,远超一般对话。 复杂性提升:用户不再只是进行单轮问答,而是越来越多地使用多步工具调用和长上下文交互。 应用类别深度分析 编程(Programming):是增长最快且最具战略意义的类别。 Anthropic 的 Claude 系列在此领域长期占据 60% 以上的份额,但正面临来自 OpenAI 和 MiniMax 等对手的激烈竞争。 角色扮演(Roleplay):在开源模型使用中占比超过 50% 。这表明开源模型因其灵活性和较少的限制,成为互动娱乐和创意写作的首选。 其他类别:科技、翻译和一般知识问答构成了长尾需求。 地理分布与全球化 亚洲崛起:亚洲地区的支出占比从早期的 13% 激增至 31% ,成为重要的 AI 消费和创新中心。 全球格局:虽然英语占主导( >80% ),但中文(简体)是第二大语言,占比近 5% 。北美以外的地区贡献了超过一半的使用量。 成本与使用量的关系 价格弹性弱:整体上,价格降低并未直接带来同比例的使用量激增。市场呈现两极分化: 高价高值:专有模型(如 GPT-4 )价格高昂,但因其在关键任务上的可靠性,需求依然强劲(缺乏弹性)。 低价高量:开源模型以极低的成本承接了海量的、对价格敏感的任务(如角色扮演)。 Jevons 悖论:在某些高效模型(如 Gemini Flash )上观察到了 Jevons 悖论,即成本降低反而导致总 token 消耗量大幅上升。 原文:AI 现状报告 一项基于 OpenRouter 的 100 万亿 Token 实证研究...

December 8, 2025 · 12 min · fisherdaddy

独家深访 OpenAI 研究副总裁 Mark Chen:扎克伯格的“送汤”攻势、Gemini 3的威胁与Jony Ive的新硬件

本次对话是 Core Memory 播客主持人 Ashley Vance 与 OpenAI 首席研究官 Mark Chen 之间的深度访谈。访谈内容涵盖了 OpenAI 在激烈的 AI 人才争夺战中的立场、公司的核心研究策略、AGI(通用人工智能)的发展进程、以及 Mark Chen 个人的职业背景和对未来的展望。 关键细节 激烈的招聘战术 汤的故事: 为了挖角 OpenAI 的研究人员,Mark Zuckerberg 曾亲自手写信件并送去“亲手煮的汤”(虽然后来 Mark Chen 调侃这可能只是某种策略)。 薪资反击: Mark Chen 透露,OpenAI 明确告知员工不会与 Meta 进行“一美元对一美元”的薪资对抗,但员工因相信公司的研究前景而选择留下。 技术竞争与评估 Gemini 3 与基准测试: 针对 Google 发布的 Gemini 3 ,Mark Chen 表示 OpenAI 内部已有性能相当甚至更好的模型。他提到基准测试只能说明一部分问题,他个人喜欢用一个关于“42”的数学难题(模 42 随机数生成器问题)来测试模型,目前尚无模型能完美解决。 预训练的回归: 过去两年 OpenAI 在 RL(强化学习)和推理模型(如 o1)上投入巨大,导致预训练的“肌肉”稍有萎缩。最近半年,团队已重新将重心放回“超级预训练”(Supercharging Pre-training)上,并认为 Scaling Law(缩放定律)并未失效。 个人背景与成长 从金融到 AI: Mark Chen 毕业于 MIT,曾在华尔街从事高频交易(HFT)。他在看到 AlphaGo 的比赛后受到启发,转行进入 AI 领域。 OpenAI 的早期岁月: 他在 2018 年加入 OpenAI,当时公司仅有约 20 人。他最初作为一名“驻场研究员”(Resident)加入,后来负责了 Codex 和 ImageGPT 等重要项目。 组织动荡的回忆 Sam Altman 事件: 在 Sam Altman 被解雇期间,Mark Chen 与其他核心成员(如 Jakub)起草了请愿书,并在凌晨 2 点获得了超过 90% 研究员的签名支持。他描述那段时间大家为了保护团队不被挖角,甚至睡在办公室,展现了极高的忠诚度。 未来产品形态 与 Jony Ive 的合作: Mark Chen 认为目前的 ChatGPT 交互方式很“笨”,缺乏记忆和深度思考。未来的设备应该能理解用户的深层意图,并具有持续的记忆功能。 安全研究细节: 在 o1 模型的开发中,OpenAI 决定不人工干预或监管模型的“思维过程”(Thinking Process),以确保模型不会为了取悦人类而学会撒谎或隐藏真实意图。 原文 在该行业最激烈的时刻,Ashley Vance坐下来与OpenAI目前最核心的研究主管之一、高级副总裁Mark Chen进行了一场深度对话。从硅谷的抢人大战到AGI的终极形态,从备受争议的“宫斗”风波到与前苹果设计总监Jony Ive的神秘硬件合作,这场对话揭示了OpenAI在这场世纪竞赛中的真实心态。...

December 2, 2025 · 1 min · fisherdaddy

针对 3 项编程任务评测 GPT-5.1 vs Gemini 3.0 vs Claude Opus 4.5 • Kilo Code

本文翻译自 Kilo Code 官方撰写的博客:Benchmarking Gpt 51 vs Gemini 30 vs Opus 45。其中对比了三大 AI 巨头于同月发布的最新编程模型: OpenAI 的 GPT-5.1 、 Google 的 Gemini 3.0 和 Anthropic 的 Opus 4.5 。通过三项不同的编程任务测试,结果显示 Claude Opus 4.5 是表现最全面、得分最高且速度最快的模型,适合追求一次性完成度和生产就绪代码的场景; GPT-5.1 倾向于防御性编程,注重安全性和详细文档;而 Gemini 3.0 则以最低的成本和最严格的指令遵循度著称,适合需要精确控制和极简代码的场景。 模型风格差异 Claude Opus 4.5 :代码组织严密,功能最完整,自动包含环境配置和错误处理,但成本最高。 GPT-5.1 :风格“防御性”强,会自动添加未请求的安全检查、详细注释和类型定义,代码较为冗长。 Gemini 3.0 :风格极简,严格按字面意思执行指令,不添加多余功能,成本最低。 关键细节 测试方法 测评使用了 Kilo Code 平台,设计了三个涵盖不同挑战的测试: 提示词遵循测试:编写具有严格规则的 Python 速率限制器。 代码重构测试:修复一个充满漏洞的 TypeScript API 遗留代码。 系统扩展测试:理解现有通知系统架构并添加电子邮件处理程序。 具体测试表现 测试 1(Python 速率限制器): Gemini 3.0 得分最高(99/100),严格遵循了所有指令,未添加多余代码。 GPT-5.1 添加了未请求的输入验证和安全检查,虽然出于好意但违反了“严格遵循”的初衷。 Opus 4....

December 1, 2025 · 4 min · fisherdaddy

用于长期运行 Agent 的高效框架 • Anthropic

本文由 Anthropic 工程师 Justin Young 撰写:Effective harnesses for long-running agents。本文探讨了随着 AI Agent能力增强,在处理跨越数小时或数天的复杂任务(如软件工程)时面临的核心挑战:如何在多个有限的上下文窗口(context windows)之间保持工作的连贯性。作者指出,仅靠上下文压缩不足以解决问题,Agent 容易出现试图一次性完成任务(one-shotting)或过早宣布任务完成的失败模式。 为了解决上述问题,作者提出了一套基于 Claude Agent SDK 的双重解决方案: 初始化Agent (Initializer agent):负责在首次运行时设置环境和规划任务。 编码Agent (Coding agent):负责在后续会话中进行增量开发,并为下一次会话留下清晰的记录。 这一方案通过结构化的环境设置、详细的功能列表和严格的增量工作流,确保Agent 能够像人类工程师轮班一样,在没有先前记忆的情况下高效接手工作。 关键细节 核心挑战与失败模式 上下文限制:Agent 在离散的会话中工作,新会话开始时没有之前的记忆。 常见错误:在使用 Opus 4.5 等前沿模型时,若仅给出高层级提示,Agent 倾向于试图一次性构建整个应用,导致上下文耗尽、功能半途而废且缺乏文档;或者在仅完成部分功能后误判项目已完成。 解决方案的具体实施 环境初始化:Initializer agent 会创建关键的基础设施,包括: init.sh 脚本:用于启动开发环境。 claude-progress.txt 文件:记录Agent 的操作日志。 初始的 git 提交:建立版本控制基础。 功能列表(Feature List):创建一个包含详细需求的 JSON 文件(例如 claude.ai 克隆项目包含 200 多个功能点)。选择 JSON 而非 Markdown 是为了防止模型意外覆盖文件结构。 增量工作流与状态管理 快速上手(Getting up to speed):Coding agent 在每个会话开始时执行标准化步骤: 运行 pwd 确认工作目录。 读取 git 日志和进度文件以了解最近的工作。 读取功能列表,选择优先级最高且未完成的功能。 运行 init....

December 1, 2025 · 3 min · fisherdaddy

快速了解一下 DeepSeek 发布的 DeepSeek-V3.2 系列模型

2025 年 12 月 1 号,DeepSeek 正式开源 DeepSeek V3.2 系列模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,该系列模型架构仍然沿用 DeepSeek 的 V3 架构(拥有 671B 总参数/37B 激活参数)。 DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。 DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro(见下表)。 更令人瞩目的是,V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。 Tips:在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。 思考融入工具调用 不同于过往版本在思考模式下无法调用工具的局限,DeepSeek-V3.2 是 DeepSeek 推出的首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。DeepSeek 团队提出了一种大规模 Agent 训练数据合成方法,构造了大量「难解答,易验证」的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。 DeepSeek-V3.2 模型在以上 Agent 评测中达到了当前开源模型的 SOTA。...

December 1, 2025 · 3 min · fisherdaddy

介绍一下 DeepSeekMath-V2:迈向可自我验证的数学推理

DeepSeek 于 2025 年 11 月 27 日发布 DeepSeekMath-V2 模型,并开源到 HuggingFace。该模型构建于 DeepSeek-V3.2-Exp-Base 之上,模型参数为 685B。 大型语言模型在数学推理方面取得了显著进展,这不仅是人工智能的重要试验场,若能进一步发展,还将对科学研究产生深远影响。通过利用奖励正确最终答案的强化学习来扩展推理能力,大语言模型(LLM)在短短一年内从表现不佳发展到在 AIME 和 HMMT 等定量推理竞赛中达到饱和状态。然而,这种方法面临着根本性的局限性:追求更高的最终答案准确率并未解决一个关键问题:正确的答案并不保证推理过程是正确的。此外,许多数学任务(如定理证明)需要严谨的逐步推导而非数值答案,这使得基于最终答案的奖励机制不再适用。为了突破深度推理的极限,我们认为有必要验证数学推理的全面性和严谨性。自我验证对于扩展测试时计算(test-time compute)尤为重要,特别是针对那些没有已知解的开放性问题。为了实现可自我验证的数学推理,我们研究了如何针对定理证明训练一个准确且忠实的大模型验证器。随后,我们使用该验证器作为奖励模型来训练证明生成器,并激励生成器在定稿之前尽可能多地识别并解决自身证明中的问题。随着生成器变得更强,为了维持生成与验证之间的差距,我们提出扩展验证计算规模,自动标注那些难以验证的新证明,从而创建训练数据以进一步改进验证器。我们的最终模型 DeepSeekMath-V2 展示了强大的定理证明能力,在扩展测试时计算的情况下,在 IMO 2025 和 CMO 2024 中获得了金牌级分数,并在 Putnam 2024 中取得了近乎完美的 118/120 分。尽管仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发能力更强的数学 AI 系统。 2. 评估结果 以下是在 IMO-ProofBench(由开发 DeepThink IMO-Gold 的 DeepMind 团队开发)以及近期的数学竞赛(包括 IMO 2025、CMO 2024 和 Putnam 2024)上的评估结果。 IMO-ProofBench 数学竞赛 3. 快速开始 DeepSeekMath-V2 构建于 DeepSeek-V3.2-Exp-Base 之上。 关于推理支持,请参阅 DeepSeek-V3.2-Exp GitHub 仓库。

November 27, 2025 · 1 min · fisherdaddy

告别暴力堆算力:Ilya Sutskever 深度解析 AI 的下一站与 SSI 的野心

本文来自于 Youtube 博主 Dwarkesh Patel 对 Ilya Sutskever(SSI 创始人、前 OpenAI 首席科学家)的最新深度访谈。访谈中,Ilya 谈到为何 Scaling Law 遭遇瓶颈?什么是 AI 真正缺失的“泛化”能力?SSI 为何选择不发产品的“直通”路线?并给出了 AI 未来 5-20 年的终极推演。本文由我和 Gemini 3 Pro 共同整理完成。 身处旧金山湾区,有时候你会觉得这一切都很魔幻。我们正处在科幻小说变成现实的中心,但一切发生得又是如此“平淡”。这或许就是所谓的“缓慢起飞”(Slow Takeoff)——即使我们正把 GDP 的 1% 投入到 AI 中,对于大多数普通人来说,除了新闻里那些令人咋舌的融资数字,生活似乎并没有什么翻天覆地的变化。 但这种平静可能只是暴风雨前的宁静。 最近,Ilya Sutskever 对 AI 行业的现状、技术的瓶颈以及他新公司 SSI (Safe Superintelligence) 的路线图进行了一次极高密度的分享。如果你厌倦了市面上千篇一律的“Scaling Law(缩放定律)万岁”论调,这篇深度解读或许能给你通过迷雾的指引。 一、 悖论:为什么 AI 既聪明又“智障”? 我们现在面临一个非常令人困惑的现象:模型在各种高难度基准测试(Evals)中表现极其出色,看似智商爆表,但在实际经济应用中,甚至在一些简单任务上,却显得笨手笨脚。 举个很典型的“写代码”例子:你让 AI 修复一个 Bug,它说“好哒我修好了”,结果引入了一个新 Bug;你指出新 Bug,它说“哎呀我错了”,结果又把旧 Bug 改回来了。这种死循环在真实开发中并不罕见。 为什么会这样?Ilya 提出了两个解释: RL(强化学习)的副作用:现在的模型经过了大量的 RL 训练。这让它们变得像那种“钻牛角尖”的学生。如果预训练(Pre-training)是让模型通过阅读海量数据来“理解世界”,那么 RL 就像是为了应试而刷题。 “做题家”与“天才”的区别: 现在的 AI 就像一个**“顶级竞赛选手”**,为了拿金牌,它刷了 1 万小时的题,背下了所有解题套路。如果你出的题在它的题库范围内,它秒杀全场。 但我们真正想要的是那种**“有天赋的学生”**,哪怕只学了 100 小时,但他真正“懂”了,具备了举一反三的泛化能力。 目前的业内做法是:为了让模型在编程竞赛中拿高分,就把所有的竞赛题都喂给它,甚至通过数据增强造出更多的题。结果我们得到了一堆“做题机器”,但当你把它放到真实世界那种从未见过的复杂代码库中时,它就因为缺乏真正的“泛化能力”而露馅了。...

November 26, 2025 · 1 min · fisherdaddy