Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

Sam Altman 访谈实录:OpenAI 的“红色代码”、万亿豪赌与被低估的 AI 潜能

本文整理自 Youtube 知名博主 Alex Kantrowitz 对 Sam Altman 的最新访谈。访谈中 Sam Altman 深度解析了 ChatGPT 的下一步:从应对 DeepSeek 和 Gemini 的“红色代码”时刻,到 1.4 万亿美元的基础设施算账逻辑。为何他认为目前的模型能力被严重低估?未来的 AI 硬件为何可能没有屏幕?本文为你详细解读 OpenAI 赢得这场 AI 军备竞赛的底层逻辑。以下内容由我和 Gemini 3 Pro 共同整理完成。 OpenAI 已经十岁了,而 ChatGPT 也走过了三个年头。在这个不仅被谷歌 Gemini 紧追不舍,还被 DeepSeek 点击软肋的时刻,外界都在问:OpenAI 还能保持领先吗? 最近,OpenAI CEO Sam Altman 在一档深度访谈中,非常坦诚地聊了聊现在的局势、那个让人咋舌的 1.4 万亿美元基建计划,以及他对未来 AI 形态的真实想法。 与其说这是一次商业访谈,不如说是一次对未来几年的预演。如果你关心 AI 的走向,这篇深度解读不容错过。 不要浪费一次好的“危机” 还记得前段时间 DeepSeek 带来的冲击吗?或者谷歌发布的 Gemini 3?Altman 并不避讳这些竞争对手的存在。 实际上,OpenAI 内部有过所谓的“红色代码(Code Red)”时刻。但这并不是外界想象中的那种恐慌性崩溃。对 Altman 来说,这种状态通常只会持续 6 到 8 周。这是一种健康的“偏执”——当 DeepSeek 展现出某种优势,或者竞争对手不仅在模仿还在超越时,这对 OpenAI 来说反而是好事。它暴露了产品策略中的弱点,迫使团队快速修补。...

December 19, 2025 · 1 min · fisherdaddy

诺贝尔奖得主 Jeff Hinton 与 Google 首席科学家 Jeff Dean 深度对谈:从赌场里的百万竞拍,到 AI 改变人类命运的赌注

本文整理自诺贝尔奖得主 Jeff Hinton 与 Google 首席科学家 Jeff Dean 进行的深度对谈。对谈中他们回顾了 AI 的历史,从 AlexNet 的卧室显卡训练,到赌场竞拍出售公司,再到 ChatGPT 引爆的 AI 时代。他们还畅谈了算力觉醒、TPU 往事及 AI 对人类未来的终极预测。以下内容由我和 Gemini 3 Pro 共同整理完成。 想象一下这个场景:加州圣地亚哥的NeurIPS大会,聚光灯下坐着两个人。一位是刚刚获得诺贝尔奖、被尊称为“AI教父”的Jeffrey Hinton(杰弗里·辛顿),另一位是Google的首席科学家、Gemini项目的联合负责人Jeff Dean(杰夫·迪恩)。 这是一场“双Jeff”的对话。他们不仅仅是在聊技术,更是在复盘过去几十年里,现代AI是如何从在一个留学生的卧室里跑数据,一路狂奔到如今足以改变人类文明进程的庞然大物。 即便你是AI圈的老炮,这场对话里也藏着不少你没听过的内幕——比如当年那场在赌场里进行的疯狂竞拍,或者早在ChatGPT数年前,Google内部其实已经有8万员工在用聊天机器人了。 算力觉醒:一个迟到了几十年的领悟 故事得从很久以前说起。Jeffrey Hinton早在80年代中期就搞出了反向传播算法(Backprop),而Jeff Dean在1990年写本科论文时,就已经在尝试并行训练神经网络了。 只要稍微懂点行的人都会问:既然算法有了,并行计算的想法也有了,为什么AI爆发得这么晚? Jeff Dean回忆起他的本科论文,当时他在32个处理器的机器上跑神经网络,结果发现效果并不好。但他犯了一个现在看来很“可爱”的错误:在增加处理器的时候,他没有增加模型的大小。 Hinton也坦承,自己在很长一段时间里都忽视了“算力”的重要性。早在80年代末,其实就已经有人证明了用并行计算跑语音模型比传统方法强,但大家(包括Hinton)都觉得那是大力出奇迹的笨办法,不如搞更精妙的算法。 直到2014年左右,Hinton才真正彻底“悟”了。AI的秘密其实简单得令人发指:模型更大、数据更多、算力更强,效果就会更好。 这是一个看似笨拙却无比有效的“缩放定律”(Scaling Law)。 传奇的开端:显卡、卧室和赌场 AI历史的转折点发生在2012年的AlexNet。这背后的故事比电影还精彩。 当时,Hinton的学生Alex因为不想写博士资格考试的文献综述,被Hinton逼着做ImageNet竞赛:每提高1%的准确率,就可以晚一点处理那个枯燥的考试。 于是,Alex买了两块GPU显卡,插在他父母家卧室的电脑上日夜训练。Hinton开玩笑说:“显卡钱是我们出的,但电费是他爸妈出的,我这是在帮学校省钱。”就这样,在卧室里诞生的AlexNet横扫了ImageNet,震惊了世界。 紧接着,高潮来了。那年冬天,为了收购Hinton和他的两个学生(Alex和Ilya)刚成立的空壳公司,几大科技巨头在NeurIPS大会期间的一个赌场酒店里展开了竞拍。 楼下是老虎机和赌桌,每当有人赢钱,铃声就大作;楼上,科技巨头们正以一百万美元为单位不断加价。虽然当时百度等公司也在竞价,但Hinton和学生们其实心里早有定数——他们想去Google,因为那是Jeff Dean在的地方,那是做研究最开心的地方。 最后,当价格高到一个疯狂的数字时,他们叫停了拍卖,选择了Google。 那个被黑莓错过的时代 在加入Google之前,其实还有一个让人唏嘘的插曲。Hinton的学生曾经把最新的语音识别技术推荐给了加拿大的国民企业——Research In Motion(黑莓手机的制造商)。 Hinton对他们说:“我们有比现在好得多的语音识别方案,免费教你们怎么做。” 结果黑莓傲慢地回复:“我们不需要语音识别,我们有全键盘。” 这个故事大概是那个时代最讽刺的注脚。后来,这项技术在Google落地,彻底改变了语音搜索的体验。 Google的秘密武器:TPU与被雪藏的聊天机器人 Jeff Dean在2013年做过一个简单的算术题:如果Google一定要把语音识别推给所有安卓用户,假设每人每天只用3分钟,Google当时的CPU算力得翻倍才撑得住。这意味着要买现在的两倍数量的服务器,这在财务上是不可接受的。 这个危机感直接催生了TPU(张量处理单元)的诞生。Jeff Dean在走廊里拦住CFO,硬是要了5000万美元预算,在连具体怎么用都还没完全想好的情况下,就把硬件搞出来了。现在回看,如果Google没有自研TPU,根本无法支撑如今庞大的AI训练需求。 至于大家最关心的——为什么Google起了大早却赶了晚集,让ChatGPT抢了先? 其实,早在ChatGPT发布之前,Google内部就已经有一个拥有8万日活用户的聊天机器人了(基于Meena/LaMDA技术)。员工们用它写代码、写信、甚至写论文摘要。但是,因为偶尔出现的“幻觉”问题(胡说八道),Google觉得这不符合“搜索公司”对准确性的严苛要求,所以迟迟不敢对公众发布。 直到OpenAI发布ChatGPT,引发了著名的“红色预警(Code Red)”,Google才意识到:哪怕有瑕疵,用户也疯狂需要这样的工具。随后,分散在DeepMind和Brain的团队迅速合并,全力打造现在的Gemini。 “从此幸福生活,或者我们全部完蛋” 对于未来20年,这两位顶级大脑怎么看? Jeffrey Hinton依然保持着他那种极度锋利且略带悲观的坦诚。当被问及AI将如何重塑世界时,他说了一句足以做书名的话: “如果有人真的把超级AI造出来了,结局只有两个:要么我们从此过上幸福快乐的生活,要么我们全部完蛋。” 但他随后补充了更具体的影响:...

December 19, 2025 · 1 min · fisherdaddy

OpenAI 创始人 John Schulman 复盘:如果重回 2015,我们能光速造出 ChatGPT 吗?

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。 如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久? OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。 这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。 带着答案考试:ChatGPT 其实可以“省钱”做 回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。 今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。 早期 OpenAI:草台班子与“走错路”的探索 现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。 当时有没有走弯路?当然有。...

December 18, 2025 · 1 min · fisherdaddy

OpenAI 的 2026 野心与迪士尼的豪赌:本周科技界发生了什么?

本文整理自 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论视频,由我和 Gemini 3 Pro 共同整理完成。 1. OpenAI 的大转向:2026 是“企业级”的一年 这就得从本周一在纽约的一场午餐会说起了。地点在中央火车站附近的 Rosemary’s 餐厅,OpenAI 的 CEO Sam Altman 和一群媒体界的大佬——包括《大西洋月刊》、《纽约客》和《纽约时报》的高管们——坐在一起。 在推杯换盏之间,Altman 抛出了一个重磅信号(Greg Brockman 随后也在推特上证实了这一点):OpenAI 接下来的重中之重,或者说 2026 年的主题,是企业级 AI(Enterprise AI)。 这听起来可能有点枯燥,但背后的逻辑非常有意思。 为什么是现在? 一直以来,OpenAI 大概是 70% 面向消费者(也就是我们要等到 2026 年第一季度才能体验到的“成人模式”聊天),30% 面向企业。但在企业服务这块,Anthropic 其实做得更好。 Altman 和他的团队意识到了两个残酷的现实: 模型正在商品化:Google 的 Gemini 现在的水平基本上已经追平了 GPT。大家手里的“大模型”底牌都差不多了。 没有直通 AGI 的捷径:单纯堆算力、堆数据带来的模型能力提升正在放缓。 所以,Sam Altman 在午餐会上直言不讳:“现在的瓶颈不是训练,而是应用。” 既然模型本身拉不开巨大差距,那就得看谁能把技术真正用在业务流程里赚钱。这也解释了为什么他们发布了 GPT-5.2(代号),这实际上是一个更擅长处理复杂工作流、待办事项和企业规划的版本。 这也带来了一个尴尬的问题: OpenAI 想做企业生意(毕竟那才是真正的大钱,预计明年这一块市场高达 375 亿美元),但它同时也得伺候好数亿的普通用户。企业用户需要严谨、准确的工具,而普通用户可能想要一个甚至会和你“调情”的 AI 伴侣。OpenAI 的高管 Fiji Simo 承认,他们想两头通吃,但这很难平衡。未来我们可能会看到两个截然不同的 ChatGPT:一个帮你做报表,一个负责陪你聊天。 2. 迪士尼入局:当米老鼠遇见 Sora 要是放在几年前,如果你跟我说迪士尼——这个对版权保护严苛到极致的公司——会主动把自家的 IP 喂给 AI,我肯定觉得你疯了。但这周,迪士尼和 OpenAI 达成了一项价值约 10 亿美元的重磅交易。...

December 18, 2025 · 1 min · fisherdaddy

快速了解一下 Google 发布的 Gemini 3 Flash Preview

Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview,这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平,旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面,能够同时提供卓越的性能和极高的响应速度。 Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro,但其运行速度更快,且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能,该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。 关键细节 性能与基准测试 超越前代:Gemini 3 Flash 在多项基准测试中表现优异,例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%,超越了 Gemini 2.5 Pro。 速度提升:根据人工智能分析基准测试,该模型的速度是 Gemini 2.5 Pro 的 3 倍。 推理能力:具备最先进的视觉和空间推理能力,支持缩放、计数和编辑视觉输入。 定价与成本效率 极低成本:在 Gemini API 和 Vertex AI 中,输入价格为每百万 token 0.50 美元,输出为 3 美元。 成本节约机制:标配上下文缓存功能,在重复使用 token 的情况下可降低 90% 的成本;通过 Batch API 异步处理可节省 50% 的成本。 实际应用案例 编程开发:在 SWE-bench Verified 测试中达到 78% 的准确率,优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台,支持快速迭代开发。 游戏领域:Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界,实现了以往只有专业级模型才能达到的质量。 深度伪造检测:Resemble AI 利用该模型进行近乎实时的多模态分析,速度比 Gemini 2....

December 18, 2025 · 2 min · fisherdaddy

介绍一下 GPT-Image 1.5

OpenAI 于 2025 年 12 月 17 日发布了全新的旗舰级图像生成模型 GPT-Image 1.5。它能进行精准编辑,同时保持细节完好,并且生成图像的速度提升高达 4 倍。同时,在 ChatGPT 中推出了全新的 Images 功能,旨在让图像生成变得令人愉悦——激发灵感并使创意探索变得轻松自如。 全新的 Images 模型即日起向所有 ChatGPT 用户推出,并在 API 中以 GPT Image 1.5 的形式提供。ChatGPT 中的全新 Images 体验也于今日向大多数用户推出,Business 和 Enterprise 用户将在稍后获得访问权限。 精准编辑,保留重要细节 现在,当你要求对上传的图像进行编辑时,模型会更可靠地遵循你的意图——甚至包括细微之处——仅根据你的要求进行更改,同时保持光线、构图和人物外貌等元素在输入、输出和后续编辑中的一致性。 这开启了符合你意图的结果——更有用的照片编辑,更逼真的服装和发型试穿/试戴,以及保留原始图像精髓的风格滤镜和概念转换。总之,这些改进意味着 ChatGPT 可以充当你口袋里的创意工作室,既能进行实用编辑,又能进行富有表现力的重构。 编辑 该模型擅长各种类型的编辑——包括添加、删减、组合、混合和变换——因此你可以在获得想要的更改的同时,不丢失图像的独特之处。 从派对到直播洛杉矶滑板 将这两名男子和狗组合成一张 2000 年代胶片相机风格的照片,表现他们在孩子们的生日派对上看起来很无聊的样子。 在背景中添加混乱的孩子们,他们在扔东西和尖叫。 将左边的男子改为手绘复古动漫风格,将狗改为毛绒玩具风格,保持右边的男子和背景景物不变。 给他们都穿上看起来像这样的 OpenAI 毛衣。 现在移除这两名男子,只保留狗,并把它们放在一个看起来像附图的 OpenAI 直播中。 创意转换 模型的创造力通过转换得以闪耀,这些转换可以更改和添加元素——例如文本和布局——使想法变为现实,同时保留重要细节。这些转换既适用于简单的概念,也适用于更复杂的概念,并且可以使用全新 ChatGPT Images 功能中的预设风格和创意轻松尝试——无需书面提示词。 电影海报 80 年代健身教练 华丽玩偶 装饰品 时尚广告 装扮角色 绘画 饮料广告 用这两名男子的图像制作一张名为“codex”的老派好莱坞黄金时代电影海报。随意更改他们的服装以符合时代背景。 将演员的名字改为 Wojciech Zaremba(左)和 Greg Brockman(右) 由 Sam Altman 执导,Fidji Simo 制作。A Feel the AGI Pictures 出品。 指令遵循 该模型比我们的初始版本更可靠地遵循指令。这实现了更精准的编辑以及更复杂的原创构图,其中元素之间的关系按预期得以保留。...

December 17, 2025 · 5 min · fisherdaddy

Claude Code 创始人的大厂晋升心法与 AI 编程未来实录

本文整理自前 Meta 首席工程师、Claude Code 创造者 Boris Cherny 深度访谈。 你可能还没听过 Boris Cherny 这个名字,但如果你关注 AI 编程,你一定听说过 Claude Code。 Boris 是 Claude Code 的创造者,现在在 Anthropic 工作。在此之前,他在 Meta(Facebook)和 Instagram 摸爬滚打了多年,一路干到了 Principal Engineer(首席工程师/IC8 级别)。 从早期的 Facebook Groups 到 Instagram 的日本团队,再到如今在 Anthropic 重新定义编程方式,Boris 的职业生涯简直就是一本“工程师打怪升级指南”。 这不仅仅是关于写代码,更是关于如何在大厂里找到“潜需求”、如何用“旁门左道”的项目获得晋升,以及——在 AI 满天飞的今天,我们到底该怎么写代码? 一、 产品哲学的核心:寻找“潜需求” (Latent Demand) 如果问 Boris 做产品最重要的原则是什么,他会毫不犹豫地告诉你:潜需求。 什么意思?简单说就是:你永远没法让用户去做他们根本不想做的事。你只能发现他们已经在笨拙地尝试做的事,然后帮他们做得更顺滑。 他在 Facebook 时的几个成功项目都验证了这一点: Marketplace(二手交易市场): 他们发现 Facebook Groups 里居然有 40% 的帖子都是在买卖东西,尽管那个功能根本不是为此设计的。用户在“滥用”产品,这恰恰就是机会。 Facebook Dating: 数据显示,大量用户在查看非好友的異性主页。也是一种本来就存在的“潜需求”。 正如 Boris 所说:“找到用户的意图,然后给他们铺好路,别试图强行改变他们的行为。” 二、 大厂生存:跨部门协作与“Side Quests” 在大厂工作,常常像是在泥潭里跳舞。Boris 讲了一个他在 Facebook 做“Chats in Groups”项目时的噩梦。...

December 16, 2025 · 2 min · fisherdaddy

什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的

本文整理自 OpenAI Forum 发布的分享视频:Vibe Engineering with OpenAI’s Codex。 什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的 我们大概都经历过那种死线逼近的时刻,心里幻想着:“要是有个不知疲倦、不用睡觉的同事能帮我把这些代码写了该多好。” 在 OpenAI,Codex 就扮演着这个角色的。 最近在 OpenAI Forum 上,Global Affairs 团队的 Chris Nicholson 邀请了两位真正的“内行”——OpenAI 开发者体验负责人 Romain Huet 和技术专家 Aaron Friel,深入聊了聊一个最近很火的概念:Vibe Engineering(氛围工程)。 这不仅仅是一个流行词,它代表了软件开发的一种新范式:利用 AI 构建真正的生产级软件,同时让人类工程师对交付的每一行代码保持完全的掌控。 这不只是让 AI 吐出一堆代码然后祈祷它能跑通,而是把 AI 深度融入到设计、架构、调试甚至长周期的多步骤项目中。 今天,我们就来扒一扒 OpenAI 内部的工程师们究竟是怎么“生活”在未来的,以及作为普通开发者,我们可以怎么把这种工作流偷师过来。 从“Vibe Coding”到“Vibe Engineering” 你可能听说过“Vibe Coding”,通常指那种随意的、凭感觉的编程体验。但 Simon Willison 提出的“Vibe Engineering”是它的严肃版——它是 AI 驱动开发的进阶形态。 在这个形态下,大模型不再只是一个代码补全工具,它们变成了你的队友。 Romain Huet 分享了一个很有意思的观察:一年前,你会为了模型能写出一个贪吃蛇游戏或者 iPhone App demo 而兴奋。但现在,模型的能力已经进化到了可以处理长达数小时甚至数天的复杂任务。它们可以制定计划、做架构决策、编写测试,甚至自己检查自己的作业。 当 AI 学会了自我检查(Self-correction),它的表现就有了质的飞跃。这就是从“写代码”到“搞工程”的转变。 现场实战:把一个 Kotlin 项目重写为 Rust 光说不练假把式。Aaron Friel 在现场展示了一个非常硬核的 Demo,任务听起来就很让人头大:...

December 16, 2025 · 2 min · fisherdaddy

我逆向工程了 Claude 的记忆系统,这是我的发现!• Manthan Gupta

本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered Claude’s Memory System, and Here’s What I Found!。作者通过逆向工程深入探究了 Claude 的记忆系统,并将其与 ChatGPT 进行了详细对比。文章揭示了两者在处理记忆和上下文时的根本性架构差异,特别是 Claude 独特的“按需检索”机制。 Claude 的提示词结构 Claude 的提示词主要由以下四个部分组成: 系统提示词(System Prompt):包含静态指令、工具定义和安全限制。 用户记忆(User Memories):类似于长期记忆。 对话历史(Conversation History):当前的对话上下文。 当前消息(Current Message):用户最新发送的内容。 用户记忆(User Memories) 内容:存储关于用户的稳定事实(如姓名、职位、偏好、技术水平等)。 格式:以 XML 格式注入提示词中。 更新机制:既包含后台的隐式更新,也支持用户通过“记住这个”或“删除这个”等指令进行的显式编辑。 对话历史的处理机制 这是 Claude 与 ChatGPT 最大的不同之处,主要由三种机制协同工作: 滚动窗口(Rolling Window):针对当前对话,保留完整的消息内容(而非摘要),直到达到 Token 限制(约 190k tokens)。 conversation_search 工具:允许 Claude 根据主题或关键词搜索过去的对话。 recent_chats 工具:允许 Claude 根据时间检索最近的对话。 总结性对比 ChatGPT:依赖预计算的摘要,每次对话都自动注入,确保了轻量级的连续性,但细节较少。 Claude:依赖 conversation_search 和 recent_chats 等工具进行按需检索。这种方式更高效(不浪费 Token 在无关历史上)且更具深度,但流程上可能不如 ChatGPT 无缝,因为其依赖于模型的检索决策。 我逆向工程了 Claude 的记忆系统,这是我的发现! 2025年12月14日 · Manthan Gupta...

December 16, 2025 · 3 min · fisherdaddy

我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....

December 15, 2025 · 2 min · fisherdaddy