我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....

December 15, 2025 · 2 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT-5.2

2025 年 12 月 12 日 OpenAI 发布了迄今为止最强大的GPT-5.2 模型,该系列专为提升专业知识型工作的效率和经济价值而设计,在制作电子表格、编写代码、设计演示文稿及处理复杂多步骤项目方面表现出显著优势。 卓越的工作效率与质量 在衡量明确知识型工作任务的 GDPval 评测中, GPT-5.2 刷新了行业水平,成为首个在相关任务上达到或超过人类专家水平的模型。 专家级表现:在涵盖 44 个职业的 GDPval 评测中, GPT-5.2 Thinking 在 70.9% 的任务中表现优于顶尖行业专家或与其持平。 极致效能:在上述任务中,模型的输出速度比专家快 11 倍以上,而成本不到专家的 1%。 办公自动化:在生成复杂的电子表格和幻灯片方面,能力较前代提升了 9.3%,格式和布局更具专业水准。 编程与工程能力的飞跃 软件工程基准:在模拟真实工业场景的 SWE-bench Pro 测试中取得了 55.6% 的新成绩;在 SWE-bench Verified 中达到了 80% 的高分。 全栈开发助手:在前端开发、复杂 UI(特别是涉及 3D 元素)以及代码调试和重构方面表现更强,减少了人工干预的需求。 可靠性、长文本与视觉能力 错误率降低:相比 GPT-5.1 Thinking,新模型的幻觉率更低,错误回答减少了 38%。 长文档处理:在长达 256k Token 的文本范围内(如 MRCRv2 评测),能保持接近 100% 的信息提取准确率,适合深度文档分析。 视觉理解:在图表推理和软件界面理解方面的错误率减半,对图像元素的空间位置有更强的感知能力。 科研推进与复杂推理 科学研究: GPT-5.2 Pro 在研究生级问答测试 GPQA Diamond 中得分 93.2%,并已在实际数学研究中协助解决了统计学习理论的开放问题。 通用推理:在 ARC-AGI-1 测试中, GPT-5....

December 12, 2025 · 3 min · fisherdaddy

告别演讲:亚马逊 CTO Werner Vogels 谈 AI 时代的“文艺复兴式开发者”

本文整理自Werner Vogels 在 AWS re:Invent 的最后一次主题演讲。在 Gemini 3 Pro 的帮助下,我把本次演讲中最核心的内容转成了一篇精彩的文章,以下为文章内容。 如果要用一个词来形容今年的 AWS re:Invent,那一定是“转折”。 这不仅仅是因为 AI 正在重塑我们的行业,更因为那个穿了 12 年 T 恤、在台上跑来跑去的亚马逊 CTO —— Werner Vogels 宣布,这是他最后一次在 re:Invent 发表主题演讲了。 别慌,他不是要离开亚马逊。他只是觉得,在这个风起云涌的时代,该把舞台留给更多年轻、鲜活的声音了。 但在这最后的谢幕演讲中,Werner 没有煽情,而是非常硬核地回答了那个悬在所有程序员头顶的达摩克利斯之剑:“AI 会抢走我的饭碗吗?” 答案是:绝不。前提是,你得进化。 我们正在步入一个新的“文艺复兴”时期,作为开发者,我们需要一套全新的生存哲学。 房间里的大象:AI 与我们的未来 我们先来聊聊那个“房间里的大象”。无论是在非洲、拉美还是亚洲,Werner 到访每一个城市时,大家都在问同一个问题:AI 会让我失业吗? 让我们换个角度问:AI 会让我变得过时(Obsolete)吗? 回想一下历史。当你还在学校里学 Pascal 和 COBOL 的时候,编译器出现了,汇编语言似乎不再那么重要了;后来有了结构化编程,有了面向对象,有了 Cloud……每一次工具的进化,都伴随着开发者角色的转变。 现在,即使有了像 Cursor 或 AWS 自家的 Q 这样的 AI 编程助手,它们依然无法拿走只有你才能做的事情。 这是你的工作,不是工具的工作。 我们正处于一个像历史上“文艺复兴”一样的时刻——艺术、科学、工程正在以前所未有的速度融合。为了在这个新时代生存并从一个单纯的“码农”进化为不可替代的构建者,Werner 提出了一个全新的框架:“文艺复兴式开发者”(The Renaissance Developer)。 这个框架包含五个核心特质。 1. 永不满足的好奇心 (Be Curious) 你是怎么学会编程的?是不是通过写出满是 Bug 的代码,然后盯着报错信息抓耳挠腮学会的? 学习新东西最快的方法,就是失败。 就像 Da Vinci 设计过永远飞不起来的飞机模型一样,只有愿意失败,才能真正学习。Werner 提到他在学外语时的体会:你背再多语法书也没用,真正的学习发生在当你跌跌撞撞地开口说话,然后被别人温和地纠正时。...

December 12, 2025 · 2 min · fisherdaddy

蔡崇信港大演讲实录 2025:中国AI并没有输,底牌是电力与开源

本文整理自蔡崇信在香港大学的演讲。在 Gemini 3 Pro 的帮助下,我把本次演讲中最核心的内容转成了一篇精彩的文章,以下为文章内容。 这几天香港大学最热闹的地方非陆佑堂莫属。不是因为有什么明星演唱会,而是阿里巴巴现任主席、也是曾经的“幕后英雄”蔡崇信(Joe Tsai)来了。 这是港大“陈坤耀杰出学人讲座”的现场,在这个有着历史沉淀的礼堂里,Joe 并没有照本宣科地念稿子,而是和港大经管学院副院长邓希炜教授来了一场非常实诚的“炉边谈话”。从NBA聊到阿里发家史,再到那个甚至有点敏感的话题——中美AI竞赛,中国到底能不能赢? 整场对话干货很多,逻辑很硬。我把其中最核心的观点嚼碎了整理出来,咱们聊聊这位顶级商界大脑是怎么看未来的。 一、 篮球:不只是生意,是最好的外交 咱们先不说冷冰冰的商业。大家都知道 Joe 是布鲁克林篮网队的老板,前阵子他还把球队带到了澳门打比赛。 对此 Joe 的态度特别坦诚:NBA 想回中国,中国也需要 NBA。这确实是一门好生意,毕竟中国有全球最大的篮球迷群体。但更重要的是,体育是一种不需要翻译的语言。 他特别提到了自己正在做的一个公益项目:每年挑选几位中国初二的学生,全额资助他们去美国读高中、打篮球。这不仅是为了培养下一个姚明,更是为了让美国的孩子看到真实的中国同龄人,也让中国孩子去体验外面的世界。这种“人与人”的连接,在这个地缘政治紧张的时代,比什么公关都管用。 二、 阿里“变形记”:活下来的秘密只有一条 回想 1999 年,中国的人均 GDP 只有 800 美元,现在是 13,000 美元。蔡崇信说他很幸运,刚好站在了中国制造业崛起和互联网爆发的交汇点上。 有人问阿里的“秘方”是什么?怎么能从一个简单的 B2B 网站,变出淘宝、支付宝,再变成现在的阿里云和 AI 巨头? Joe 的回答简单得让人意外:不要为了收购而收购,要为了解决客户痛点去就要自己造。 淘宝是为了解决什么? 是为了帮那些刚加入 WTO 的中国工厂和商家把货卖出去。 支付宝是怎么来的? 买家怕付了钱不发货,卖家怕发了货不给钱。为了解决“信任”危机,阿里才搞了个担保交易,这就是支付宝的前身。 为什么要搞云计算? 这是一个“逼上梁山”的故事。16 年前没人在乎云,但阿里数据量太大了。当时的 CTO 算了一笔账:如果不自己搞技术,继续买 Oracle、IBM 的设备,以后阿里赚的钱全得进这些美国公司的口袋。所以,阿里云最初是为了“自救”,是为了技术自主。 他说了一个给创业者的建议:凡是核心能力,尽量自己从内部长出来(Organic Growth),别总想着靠买别人的公司来拼凑。 自己的团队,才有那个 DNA。 三、 别被“产能过剩”忽悠了,这是中国的王牌 聊到宏观经济,Joe 的观点非常犀利。 现在外面有很多声音批评中国“产能过剩”(Overcapacity),试图向全球倾销。Joe 觉得这说法挺双标的。德国汽车出口全世界的时候,有人说德国产能过剩吗?没有。 所谓的“过剩”,本质上就是国内吃不下,通过出口换取外汇,再反哺国内经济。这不但不是坏事,反而是国家变富的必经之路。中国在新五年的规划里明确了要继续做强制造业,只不过这次不是做衬衫鞋子,而是电动车、电池、太阳能板。通过高端制造积累财富,老百姓腰包鼓了,消费自然就上来了。 他甚至给了一个惊人的数据:在淘宝上,年消费超过 6000 美元(约 4 万多人民币)的用户已经有 5600 万人。这个基数已经很大了,消费潜力就在那里。...

December 11, 2025 · 1 min · fisherdaddy

朱啸虎:2025年没有AI泡沫,只有更残酷的“入口之战”

本文整理自2025 年底张小珺对朱啸虎(金沙江创投主管合伙人)的最新访谈。朱啸虎是一个非常有意思的投资人,每次访谈中抛出的观点都非常的犀利且具有前瞻性。对于 AI 我们既要仰望星空,也要脚踏实地,如果说萨姆奥特曼和梁文锋是在仰望星空,目标是实现 AGI,而朱啸虎就是那个最佳脚踏实地的人。在 Gemini 3 Pro 的帮助下,我把本次采访中最核心的内容转成了一篇精彩的文章,以下为文章内容。 最近很多人都在问同一个问题:站在2025年的门槛上,AI是不是已经有泡沫了? 对此,我的回答很干脆:至少三年内,我看不到泡沫。 当菜市场的大妈都在聊泡沫的时候,泡沫肯定还没破;当大家都还是像现在这样将信将疑、甚至二级市场还在故意回调吓唬人的时候,这反而是进场的好时机。 为什么这么笃定?看数据。现在不仅是OpenAI,中国很多并不知名的创业公司,每天的Token消耗量都在几百亿的级别。这种十几倍的爆发式增长,说明应用端是真的有人在用,而且用的量极大。 这就是为什么这甚至不能被称为泡沫,我们现在的算力、GPU卡甚至电力都已经跟不上需求的爆发了。 在这场近46分钟的深度复盘中,我想和大家分享一下这一年来我的观察,以及在这个“如果不搞现实主义就要饿死”的当下,创业者该如何在巨头的夹缝中求生。 一、 Sam Altman 变现实了:AGI是梦,DAU才是命 今年最大的变化,就是大家越来越“现实”了。 你看OpenAI的Sam Altman,今年几乎不怎么提AGI(通用人工智能)那种宏大叙事了。为什么?因为AGI太难了,那个饼画得太远。现在的OpenAI像极了一个成熟的VC投资人做出来的公司——务实。 ChatGPT最近的动作非常清晰:做Search(搜索)、做Canvas(浏览器)、甚至推出了群聊功能。这一连串动作背后的逻辑只有一个:从周活(WAU)向日活(DAU)转型。 纯粹的AI对话很容易变成一种“周活”甚至“月活”工具(这也是为什么像Kimi这类产品其实很难防守),只有切入高频场景,哪怕是做个群聊里的“点赞氛围组”,也是在争夺流量入口。 OpenAI现在的野心不是取代人类,而是想成为下一个超级入口(Super App)。一旦群聊生态建立,它下一步就是要重构社交关系链。这才是Meta(Facebook)最害怕的事情。 所以,这不再是模型之争,而是类似当年移动互联网时代的微信、WhatsApp之争。 二、 中国市场的“六小龙”与“扫地僧” 回到国内,格局还处于早期,但我非常看好字节跳动(豆包)。他们的流量优势太明显,产品体验打磨得也极好。阿里的通义千问虽然动作稍微慢了点,在“既要电商又要AI”的双线作战中有点纠结,但底子很厚,模型能力绝对处于第一梯队。 这里必须要特别提一下DeepSeek(深度求索)。 如果在2024年初你问我,我也许还看不准,但现在回看,DeepSeek简直是中国AI界的“功臣”。如果没有他们的开源,人类的AI技术很可能就被几家美国私有公司垄断了。DeepSeek的存在,不仅让中国建立了独立的开源生态,也倒逼了模型价格的快速下降。 虽然这对做模型的商业化公司来说是个噩耗——当Token价格被大厂(如字节火山引擎、阿里云)打到地板价,甚至“送”的时候,创业公司靠卖API基本没戏了。 但对做应用的人来说,这简直是黄金时代。 三、 投资逻辑:偏离“共识”15度 现在的VC圈很卷,美国和中国的投资人都在盯着同样的几个赛道(比如人形机器人)。当一个赛道所有人都看明白、都想投的时候,我就不碰了。 我的策略是**“偏离共识15度”**。你要找那些大厂看不上、不想干、或者还没反应过来的“脏活累活”。 这一年我投了十几家公司,有些非常有意思: 不投人形机器人,投“牛马机器人”:大家都在卷那个双足行走的人形机器人,太贵且没场景。我投什么?海里洗船的机器人。这活儿人类干着危险,海水浑浊又腐蚀,但需求是刚性的;我还投了按摩机器人,不仅能按得舒服,还能一边按一边陪你聊天,甚至给你推销办卡,性价比极高。 AI陪伴与玩具:这是一个被严重低估的市场。成年人,特别是男性,其实非常需要情绪价值。我们投的一家AI陪伴公司,不到半年数据就爆了,用户粘性和付费意愿高得吓人。 垂直SaaS出海:不需要一定要做大模型,拿一个开源的7B或30B小模型,做私有化部署,去解决一个极度垂直的问题。比如我们投的给第三方做智能穿戴解决方案的公司,生意好得不得了。 四、 给创业者的忠告:活在夹缝里 如果你是创业者,现在不要再跟我讲什么“中国版OpenAI”或者“千亿美金”的故事了。讲这种宏大叙事的,我一般聊10分钟就结束了。 现在的机会在“夹缝”里。 当年的移动互联网,大厂看不上打车(滴滴)、看不上送外卖(美团/饿了么),所以给了创业者几年“猥琐发育”的时间。 但AI时代不同,大厂太焦虑了,反应速度极快。你做一个功能,如果是纯工具(比如修图、润色),大厂的模型升级一次你就没了。 生存法则: 离大厂三条马路:不要做大厂主业延伸线上的东西,要做大厂觉得苦、脏、累,或者数据极其封闭垂直的领域。 不要迷信SOTA(State Of The Art):现在的创业公司去刷榜、去搞模型排名没有任何意义。你花几千万美金训练出来的模型,可能也就领先大厂一个月。对于绝大多数应用场景,一个低成本的、响应快的开源小模型完全够用。 一定要有商业化能力:不要想着先烧钱再赚钱。今天的资本市场环境,如果你不能证明你的造血能力,不管是港股上市还是后续融资,都会非常困难。 五、 未来推演:2026年,中国有机会 如果不确定性是唯一的确定性,那么只有把时间拉长来看才清晰。 短期看,美国在模型层面的确还领先3-6个月。但是限制美国AI发展的最大瓶颈即将到来——电力和基础设施。 美国的电网建设、核电站审批极其缓慢。而中国在光伏、核电以及数据中心建设上的执行力是惊人的。未来拼的不是谁的模型参数大,而是谁能更便宜、更稳定地提供大规模算力。 我相信,凭借中国的开源生态和基础设施优势,三五年后,中国的AI应用完全有机会反超美国。 所以,别管那个所谓“泡沫”的争论了。对于中国创业者来说,现在的策略应该非常简单直接: 别想大故事,找到那个缝隙,全速前进。这是属于实干家的时代。

December 11, 2025 · 1 min · fisherdaddy

埃隆·马斯克深度访谈:给年轻人的建议、AI 的未来与战胜恐惧

本文整理自 9 年前也就是 2016 年萨姆奥特曼(当时还是 YC 的总裁)对埃隆·马斯克(Elon Musk)的一次非常经典的访谈,时至今日来看这次访谈依然不过时,且非常具有前瞻性。马斯克在采访中不仅谈到了年轻人该如何选择人生方向,还深入剖析了他对AI、火星殖民以及克服恐惧的底层逻辑。在 Gemini 3 Pro 的辅助下,我把本次采访的内容转成了一篇精彩的文章,以下为文章内容。 埃隆·马斯克给年轻人的建议:别总以此为目标去“改变世界” 如果你现在22岁,正站在人生的十字路口,马斯克并没有建议你上来就去挑战“改变世界”这种宏大叙事。 1. 重新定义“有用” 马斯克认为,判断一件事是否有价值,核心在于它是否对社会有用。这不一定非得是惊天动地的大事。哪怕你只是开发了一个小游戏,或者改进了照片分享的功能,只要它能给很多人带来一点点快乐或便利,这就是有价值的。 他提出了一个很有趣的计算方式:实用性的增量(Utility Delta) × 受众数量。 做一件对少数人有巨大改变的事是极好的。 做一件对无数人有微小改变的事,同样伟大。 两者的“曲线下面积”其实是相当的。所以,不要因为事情看起来微不足道就觉得没意义。 2. 只有这三件事值得现在的年轻人全力以赴 虽然马斯克年轻时有五个想解决的问题(多行星生存、可持续能源、互联网、以及接下来的两项),但他认为如果你现在入局,有三个领域最能影响人类未来: 人工智能(AI):这是近期内对人类影响最大的单一变量。现在的关键是确保它的发展方向是良性的。 基因工程:如果我们能通过基因重编程解决遗传疾病、治愈老年痴呆或失智症,那将是人类的福音。 脑机接口(高带宽人脑接口):这是马斯克非常看重的一点。他认为人类其实已经是“半机器人”了——我们的手机、电脑、邮件就是我们的“数字延伸”。但问题在于带宽。我们的大脑(皮层)和数字设备之间的连接太慢了(想想你用手指打字的速度)。解决这个“输入输出瓶颈”,是未来的关键。 3. 关于读博的建议 想要变得有用,非得读个博士吗?马斯克的回答很干脆:大多数情况下,不需要。 除非你研究的技术正处于爆发的临界点(inflection point),否则很多时候,在这个快速变迁的时代,学术研究可能会让你与实际应用脱节。 直面恐惧与“熵增”定律 很多人觉得马斯克是无所畏惧的,毕竟只有疯子才会同时搞火箭和电动车。但他在采访中坦白:“我其实经常感到恐惧,而且是很强烈的恐惧。” 即使只有10%的成功率,也要去做 不管是SpaceX还是Tesla,马斯克在起步时给自己估算的成功率都不到10%。他甚至已经做好了“最后会失去一切”的心理准备。 那为什么还要做?这时候**“宿命论”**反而帮了大忙。既然已经接受了大概率会失败的结果,恐惧感就减轻了。他的想法很简单:只要能把球往前推一点点,就算公司倒闭了,也许后来者能接过接力棒继续跑,那也是有意义的。 技术不会自动进步 这是一个非常深刻的历史观。马斯克提醒我们,“熵”也是站在我们对立面的。 很多人误以为技术会随着时间推移自动变好。大错特错。 古埃及人曾建造了金字塔,後來忘记了怎么建,甚至忘记了怎么读象形文字。 古罗马人曾拥有惊人的水道和道路系统,後來也都遗失了。 1969年我们能登月,后来只能飞近地轨道,航天飞机退役后,美国甚至一度无法载人上天。 如果没有一群聪明人发疯似地(work like crazy)去维护和创新,技术实际上是会倒退的。 火星殖民与AI的终局 火星:从“不可能”到“十年内” 几年前,马斯克自己都不确定火星殖民是否只是个幻想。但现在,他非常确定这是可行的。他预测在未来大概10年(甚至9年)内,我们有望把足够多的人送上火星。 有趣的小知识:去火星的“网速”会有延迟。地球到火星光速大概需要4到20分钟(取决于两者的位置),所以你在火星上跟地球视频通话会有明显的滞后。 AI的最佳结局:民主化与人机共生 关于AI的未来,马斯克最担心的不是AI这技术本身产生自我意识,而是权力的集中。如果超级AI掌握在某个独裁者、某个国家的情报机构或极少数人手中,那是极其危险的。 他提出的解决方案是:AI技术的民主化。 这也是OpenAI成立的初衷(尽管当时才成立六个月)——让技术尽可能普及,而不是被垄断。 更进一步,人类如何不被淘汰?答案还是回到脑机接口。 人类的大脑分两部分: 边缘系统(Limbic System):原始大脑,负责本能、情绪。 大脑皮层(Cortex):负责理性思考。 目前这两者在我们脑子里配合得还不错。未来的方向是将AI变成我们的“第三层大脑”。通过高带宽接口,让人类与AI共生。既然我们就是AI,就不存在“AI控制人类”的问题了。 真实的马斯克:我不是个“生意人” 很多外界的年轻人想成为“下一个埃隆·马斯克”,往往是看到了光鲜亮丽的一面。在采访的最后,马斯克透露了他真实的工作状态。 他根本不觉得自己在做传统意义上的“商业(Business)”。 在SpaceX,虽然他是CEO,但他把法务、财务、销售都交给了Gwynne Shotwell。 他80%的时间都花在了工程和设计上。 并不是坐在办公室签文件 如果你去SpaceX或Tesla找他,你大概率会在设计室或工厂产线上看到他。...

December 11, 2025 · 1 min · fisherdaddy

我逆向工程了 ChatGPT 的记忆系统,这是我的发现!• Manthan Gupta

本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered ChatGPT’s Memory System, and Here’s What I Found!。作者通过逆向工程发现了 ChatGPT 的记忆系统的实现方式,与普遍猜测不同,ChatGPT 并没有使用复杂的向量数据库或针对对话历史的 RAG(检索增强生成)技术。相反,它采用了一种分层架构,主要由以下四个核心部分组成: 会话元数据 (Session Metadata) 这是在会话开始时一次性注入的临时信息,包括设备类型、浏览器信息、大致位置、订阅等级以及使用模式(如活跃频率)。 这些信息帮助模型根据用户当前的软硬件环境调整回复,但不会在会话结束后保留。 用户记忆 (User Memory) 这是一个专门用于存储长期事实的工具,例如用户的姓名、职业目标、健身习惯及个人偏好。 作者的案例中存储了 33 个事实。这些信息通常在用户明确要求(如“记住这个”)或模型检测到关键信息并获得隐含确认时被存储。 这些记忆作为一个独立的模块,会被注入到每一次未来的提示词(Prompt)中。 近期对话摘要 (Recent Conversations Summary) 系统不会检索过去对话的完整记录,而是保留一份轻量级的摘要列表。 该列表包含时间戳、对话标题以及用户消息的片段。 这种方法充当了用户近期兴趣的“粗略地图”,在避免高延迟和 Token 成本的同时,维持了跨对话的连续性。 当前会话消息 (Current Session Messages) 这是当前对话的完整历史记录,采用滑动窗口机制。 其容量基于 Token 数量限制而非消息条数。当达到限制时,旧消息会被移除,但用户记忆和对话摘要依然保留,以确保当前对话的连贯性。 传统的 RAG 系统需要对每条过去的消息进行嵌入(Embedding)和相似度搜索,成本高且延迟大。ChatGPT 的方法通过预计算轻量级摘要并直接注入,牺牲了部分历史细节,换取了更快的响应速度和更高的效率。 原文 当我问 ChatGPT 它记得关于我的什么时,它列出了从我的名字和职业目标到我目前的健身计划等 33 个事实。但它实际上是如何存储和检索这些信息的呢?为什么感觉如此无缝? 经过广泛的实验,我发现 ChatGPT 的记忆系统比我预期的要简单得多。没有向量数据库。没有基于对话历史的 RAG(检索增强生成)。相反,它使用四个不同的层:适应你环境的会话元数据、长期存储的显式事实、最近聊天的轻量级摘要以及当前对话的滑动窗口。 这篇博客详细剖析了每一层是如何工作的,以及为什么这种方法可能优于传统的检索系统。这里的所有内容都来自于通过对话对 ChatGPT 行为的逆向工程。OpenAI 并没有公布这些实现细节。 ChatGPT 的上下文结构 在理解记忆之前,重要的是要理解 ChatGPT 接收到的每条消息的完整上下文。结构如下: [0] 系统 指令 [1] 开发者 指令 [2] 会话 元数据 (临时的) [3] 用户 记忆 (长期 事实) [4] 最近 对话 摘要 (过去的 聊天, 标题 + 片段) [5] 当前 会话 消息 (本次 聊天) [6] 你的 最新 消息 前两个组件定义了高级行为和安全规则。它们不是本博客的重点。有趣的部分始于会话元数据。...

December 11, 2025 · 2 min · fisherdaddy

2025 AI 现状报告 • OpenRouter & a16z

这份报告基于 OpenRouter 平台超过 100 万亿 token 的数据,深入分析了截至 2025 年底的大型语言模型(LLM)使用现状。报告揭示了 AI 领域正从简单的文本生成向复杂的多步推理转变,开源模型正在重塑市场格局,且用户的使用习惯呈现出明显的全球化和多样化趋势。 主要观点 从模式匹配到多步推理的范式转变 随着 2024 年 12 月 5 日 OpenAI 发布 o1 模型,AI 领域迎来了转折点。行业重心从单次前向传递的模式生成,转移到了包含内部多步思考和规划的“推理”模型。这种转变加速了代理式(Agentic)工作流的部署。 开源模型与专有模型的双重生态 虽然专有模型(如 Anthropic 和 OpenAI 的产品)在高端任务中仍占主导,但开源模型(OSS)已占据约 30% 的市场份额。特别是来自中国的模型(如 DeepSeek 和 Qwen )增长迅速,不仅在成本上具有优势,在性能上也日益强劲,促使市场形成了多元化的竞争格局。 编程与角色扮演主导应用场景 与普遍认为 AI 主要用于生产力工具的印象不同,数据表明“创造性角色扮演”和“编程辅助”是两大核心用例。开源模型在角色扮演领域尤为流行,而编程任务则推动了长上下文和复杂推理的需求。 “灰姑娘水晶鞋”留存效应 用户留存率分析揭示了一种被称为“灰姑娘水晶鞋”的现象:当一个新模型首次完美解决某类用户的特定痛点(即“合脚”)时,这些早期用户群体会形成极高的忠诚度和长期留存,即使后续有新模型推出也不易流失。 关键细节 数据来源与规模 数据基础:研究基于 OpenRouter 平台上的真实交互元数据,涵盖超过 100 万亿 token 的流量,时间跨度主要集中在 2024 年底至 2025 年底。 隐私保护:分析仅基于元数据(如 token 数量、模型类型、地理位置标签),不涉及具体的提示词或生成内容。 开源模型的崛起与演变 市场份额:开源模型的使用量稳步上升,其中中国开发的开源模型在 2025 年下半年增长显著,部分周次占总流量的近 30% 。 竞争格局:市场不再由单一模型垄断。DeepSeek 曾占据主导,但目前 Qwen 、 Meta LLaMA 、 Mistral AI 等多家厂商均占有重要份额。 模型尺寸:市场出现了“中间地带”。用户不再只选择极小或极大的模型, 150 亿至 700 亿参数的“中等”模型因平衡了能力与效率而受到青睐。 代理式推理(Agentic Inference)的兴起 推理模型占比:到 2025 年底,经过推理优化的模型处理了超过 50% 的 token 流量。 序列长度增加:平均 Prompt(提示词)长度增加了约 4 倍,主要由编程任务驱动。编程任务的输入通常包含大量代码上下文,远超一般对话。 复杂性提升:用户不再只是进行单轮问答,而是越来越多地使用多步工具调用和长上下文交互。 应用类别深度分析 编程(Programming):是增长最快且最具战略意义的类别。 Anthropic 的 Claude 系列在此领域长期占据 60% 以上的份额,但正面临来自 OpenAI 和 MiniMax 等对手的激烈竞争。 角色扮演(Roleplay):在开源模型使用中占比超过 50% 。这表明开源模型因其灵活性和较少的限制,成为互动娱乐和创意写作的首选。 其他类别:科技、翻译和一般知识问答构成了长尾需求。 地理分布与全球化 亚洲崛起:亚洲地区的支出占比从早期的 13% 激增至 31% ,成为重要的 AI 消费和创新中心。 全球格局:虽然英语占主导( >80% ),但中文(简体)是第二大语言,占比近 5% 。北美以外的地区贡献了超过一半的使用量。 成本与使用量的关系 价格弹性弱:整体上,价格降低并未直接带来同比例的使用量激增。市场呈现两极分化: 高价高值:专有模型(如 GPT-4 )价格高昂,但因其在关键任务上的可靠性,需求依然强劲(缺乏弹性)。 低价高量:开源模型以极低的成本承接了海量的、对价格敏感的任务(如角色扮演)。 Jevons 悖论:在某些高效模型(如 Gemini Flash )上观察到了 Jevons 悖论,即成本降低反而导致总 token 消耗量大幅上升。 原文:AI 现状报告 一项基于 OpenRouter 的 100 万亿 Token 实证研究...

December 8, 2025 · 12 min · fisherdaddy

独家深访 OpenAI 研究副总裁 Mark Chen:扎克伯格的“送汤”攻势、Gemini 3的威胁与Jony Ive的新硬件

本次对话是 Core Memory 播客主持人 Ashley Vance 与 OpenAI 首席研究官 Mark Chen 之间的深度访谈。访谈内容涵盖了 OpenAI 在激烈的 AI 人才争夺战中的立场、公司的核心研究策略、AGI(通用人工智能)的发展进程、以及 Mark Chen 个人的职业背景和对未来的展望。 关键细节 激烈的招聘战术 汤的故事: 为了挖角 OpenAI 的研究人员,Mark Zuckerberg 曾亲自手写信件并送去“亲手煮的汤”(虽然后来 Mark Chen 调侃这可能只是某种策略)。 薪资反击: Mark Chen 透露,OpenAI 明确告知员工不会与 Meta 进行“一美元对一美元”的薪资对抗,但员工因相信公司的研究前景而选择留下。 技术竞争与评估 Gemini 3 与基准测试: 针对 Google 发布的 Gemini 3 ,Mark Chen 表示 OpenAI 内部已有性能相当甚至更好的模型。他提到基准测试只能说明一部分问题,他个人喜欢用一个关于“42”的数学难题(模 42 随机数生成器问题)来测试模型,目前尚无模型能完美解决。 预训练的回归: 过去两年 OpenAI 在 RL(强化学习)和推理模型(如 o1)上投入巨大,导致预训练的“肌肉”稍有萎缩。最近半年,团队已重新将重心放回“超级预训练”(Supercharging Pre-training)上,并认为 Scaling Law(缩放定律)并未失效。 个人背景与成长 从金融到 AI: Mark Chen 毕业于 MIT,曾在华尔街从事高频交易(HFT)。他在看到 AlphaGo 的比赛后受到启发,转行进入 AI 领域。 OpenAI 的早期岁月: 他在 2018 年加入 OpenAI,当时公司仅有约 20 人。他最初作为一名“驻场研究员”(Resident)加入,后来负责了 Codex 和 ImageGPT 等重要项目。 组织动荡的回忆 Sam Altman 事件: 在 Sam Altman 被解雇期间,Mark Chen 与其他核心成员(如 Jakub)起草了请愿书,并在凌晨 2 点获得了超过 90% 研究员的签名支持。他描述那段时间大家为了保护团队不被挖角,甚至睡在办公室,展现了极高的忠诚度。 未来产品形态 与 Jony Ive 的合作: Mark Chen 认为目前的 ChatGPT 交互方式很“笨”,缺乏记忆和深度思考。未来的设备应该能理解用户的深层意图,并具有持续的记忆功能。 安全研究细节: 在 o1 模型的开发中,OpenAI 决定不人工干预或监管模型的“思维过程”(Thinking Process),以确保模型不会为了取悦人类而学会撒谎或隐藏真实意图。 原文 在该行业最激烈的时刻,Ashley Vance坐下来与OpenAI目前最核心的研究主管之一、高级副总裁Mark Chen进行了一场深度对话。从硅谷的抢人大战到AGI的终极形态,从备受争议的“宫斗”风波到与前苹果设计总监Jony Ive的神秘硬件合作,这场对话揭示了OpenAI在这场世纪竞赛中的真实心态。...

December 2, 2025 · 1 min · fisherdaddy

针对 3 项编程任务评测 GPT-5.1 vs Gemini 3.0 vs Claude Opus 4.5 • Kilo Code

本文翻译自 Kilo Code 官方撰写的博客:Benchmarking Gpt 51 vs Gemini 30 vs Opus 45。其中对比了三大 AI 巨头于同月发布的最新编程模型: OpenAI 的 GPT-5.1 、 Google 的 Gemini 3.0 和 Anthropic 的 Opus 4.5 。通过三项不同的编程任务测试,结果显示 Claude Opus 4.5 是表现最全面、得分最高且速度最快的模型,适合追求一次性完成度和生产就绪代码的场景; GPT-5.1 倾向于防御性编程,注重安全性和详细文档;而 Gemini 3.0 则以最低的成本和最严格的指令遵循度著称,适合需要精确控制和极简代码的场景。 模型风格差异 Claude Opus 4.5 :代码组织严密,功能最完整,自动包含环境配置和错误处理,但成本最高。 GPT-5.1 :风格“防御性”强,会自动添加未请求的安全检查、详细注释和类型定义,代码较为冗长。 Gemini 3.0 :风格极简,严格按字面意思执行指令,不添加多余功能,成本最低。 关键细节 测试方法 测评使用了 Kilo Code 平台,设计了三个涵盖不同挑战的测试: 提示词遵循测试:编写具有严格规则的 Python 速率限制器。 代码重构测试:修复一个充满漏洞的 TypeScript API 遗留代码。 系统扩展测试:理解现有通知系统架构并添加电子邮件处理程序。 具体测试表现 测试 1(Python 速率限制器): Gemini 3.0 得分最高(99/100),严格遵循了所有指令,未添加多余代码。 GPT-5.1 添加了未请求的输入验证和安全检查,虽然出于好意但违反了“严格遵循”的初衷。 Opus 4....

December 1, 2025 · 4 min · fisherdaddy