👋 Welcome to fisherdaddy’s blog!
- 精心翻译的优质博客内容
- 前沿技术分享
- 认知分享
📚 博客内容:
- 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
- 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
- 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。
👋 Welcome to fisherdaddy’s blog!
📚 博客内容:
本文整理自 Youtube 知名博主 Alex Kantrowitz 对 Sam Altman 的最新访谈。访谈中 Sam Altman 深度解析了 ChatGPT 的下一步:从应对 DeepSeek 和 Gemini 的“红色代码”时刻,到 1.4 万亿美元的基础设施算账逻辑。为何他认为目前的模型能力被严重低估?未来的 AI 硬件为何可能没有屏幕?本文为你详细解读 OpenAI 赢得这场 AI 军备竞赛的底层逻辑。以下内容由我和 Gemini 3 Pro 共同整理完成。 OpenAI 已经十岁了,而 ChatGPT 也走过了三个年头。在这个不仅被谷歌 Gemini 紧追不舍,还被 DeepSeek 点击软肋的时刻,外界都在问:OpenAI 还能保持领先吗? 最近,OpenAI CEO Sam Altman 在一档深度访谈中,非常坦诚地聊了聊现在的局势、那个让人咋舌的 1.4 万亿美元基建计划,以及他对未来 AI 形态的真实想法。 与其说这是一次商业访谈,不如说是一次对未来几年的预演。如果你关心 AI 的走向,这篇深度解读不容错过。 不要浪费一次好的“危机” 还记得前段时间 DeepSeek 带来的冲击吗?或者谷歌发布的 Gemini 3?Altman 并不避讳这些竞争对手的存在。 实际上,OpenAI 内部有过所谓的“红色代码(Code Red)”时刻。但这并不是外界想象中的那种恐慌性崩溃。对 Altman 来说,这种状态通常只会持续 6 到 8 周。这是一种健康的“偏执”——当 DeepSeek 展现出某种优势,或者竞争对手不仅在模仿还在超越时,这对 OpenAI 来说反而是好事。它暴露了产品策略中的弱点,迫使团队快速修补。...
本文整理自诺贝尔奖得主 Jeff Hinton 与 Google 首席科学家 Jeff Dean 进行的深度对谈。对谈中他们回顾了 AI 的历史,从 AlexNet 的卧室显卡训练,到赌场竞拍出售公司,再到 ChatGPT 引爆的 AI 时代。他们还畅谈了算力觉醒、TPU 往事及 AI 对人类未来的终极预测。以下内容由我和 Gemini 3 Pro 共同整理完成。 想象一下这个场景:加州圣地亚哥的NeurIPS大会,聚光灯下坐着两个人。一位是刚刚获得诺贝尔奖、被尊称为“AI教父”的Jeffrey Hinton(杰弗里·辛顿),另一位是Google的首席科学家、Gemini项目的联合负责人Jeff Dean(杰夫·迪恩)。 这是一场“双Jeff”的对话。他们不仅仅是在聊技术,更是在复盘过去几十年里,现代AI是如何从在一个留学生的卧室里跑数据,一路狂奔到如今足以改变人类文明进程的庞然大物。 即便你是AI圈的老炮,这场对话里也藏着不少你没听过的内幕——比如当年那场在赌场里进行的疯狂竞拍,或者早在ChatGPT数年前,Google内部其实已经有8万员工在用聊天机器人了。 算力觉醒:一个迟到了几十年的领悟 故事得从很久以前说起。Jeffrey Hinton早在80年代中期就搞出了反向传播算法(Backprop),而Jeff Dean在1990年写本科论文时,就已经在尝试并行训练神经网络了。 只要稍微懂点行的人都会问:既然算法有了,并行计算的想法也有了,为什么AI爆发得这么晚? Jeff Dean回忆起他的本科论文,当时他在32个处理器的机器上跑神经网络,结果发现效果并不好。但他犯了一个现在看来很“可爱”的错误:在增加处理器的时候,他没有增加模型的大小。 Hinton也坦承,自己在很长一段时间里都忽视了“算力”的重要性。早在80年代末,其实就已经有人证明了用并行计算跑语音模型比传统方法强,但大家(包括Hinton)都觉得那是大力出奇迹的笨办法,不如搞更精妙的算法。 直到2014年左右,Hinton才真正彻底“悟”了。AI的秘密其实简单得令人发指:模型更大、数据更多、算力更强,效果就会更好。 这是一个看似笨拙却无比有效的“缩放定律”(Scaling Law)。 传奇的开端:显卡、卧室和赌场 AI历史的转折点发生在2012年的AlexNet。这背后的故事比电影还精彩。 当时,Hinton的学生Alex因为不想写博士资格考试的文献综述,被Hinton逼着做ImageNet竞赛:每提高1%的准确率,就可以晚一点处理那个枯燥的考试。 于是,Alex买了两块GPU显卡,插在他父母家卧室的电脑上日夜训练。Hinton开玩笑说:“显卡钱是我们出的,但电费是他爸妈出的,我这是在帮学校省钱。”就这样,在卧室里诞生的AlexNet横扫了ImageNet,震惊了世界。 紧接着,高潮来了。那年冬天,为了收购Hinton和他的两个学生(Alex和Ilya)刚成立的空壳公司,几大科技巨头在NeurIPS大会期间的一个赌场酒店里展开了竞拍。 楼下是老虎机和赌桌,每当有人赢钱,铃声就大作;楼上,科技巨头们正以一百万美元为单位不断加价。虽然当时百度等公司也在竞价,但Hinton和学生们其实心里早有定数——他们想去Google,因为那是Jeff Dean在的地方,那是做研究最开心的地方。 最后,当价格高到一个疯狂的数字时,他们叫停了拍卖,选择了Google。 那个被黑莓错过的时代 在加入Google之前,其实还有一个让人唏嘘的插曲。Hinton的学生曾经把最新的语音识别技术推荐给了加拿大的国民企业——Research In Motion(黑莓手机的制造商)。 Hinton对他们说:“我们有比现在好得多的语音识别方案,免费教你们怎么做。” 结果黑莓傲慢地回复:“我们不需要语音识别,我们有全键盘。” 这个故事大概是那个时代最讽刺的注脚。后来,这项技术在Google落地,彻底改变了语音搜索的体验。 Google的秘密武器:TPU与被雪藏的聊天机器人 Jeff Dean在2013年做过一个简单的算术题:如果Google一定要把语音识别推给所有安卓用户,假设每人每天只用3分钟,Google当时的CPU算力得翻倍才撑得住。这意味着要买现在的两倍数量的服务器,这在财务上是不可接受的。 这个危机感直接催生了TPU(张量处理单元)的诞生。Jeff Dean在走廊里拦住CFO,硬是要了5000万美元预算,在连具体怎么用都还没完全想好的情况下,就把硬件搞出来了。现在回看,如果Google没有自研TPU,根本无法支撑如今庞大的AI训练需求。 至于大家最关心的——为什么Google起了大早却赶了晚集,让ChatGPT抢了先? 其实,早在ChatGPT发布之前,Google内部就已经有一个拥有8万日活用户的聊天机器人了(基于Meena/LaMDA技术)。员工们用它写代码、写信、甚至写论文摘要。但是,因为偶尔出现的“幻觉”问题(胡说八道),Google觉得这不符合“搜索公司”对准确性的严苛要求,所以迟迟不敢对公众发布。 直到OpenAI发布ChatGPT,引发了著名的“红色预警(Code Red)”,Google才意识到:哪怕有瑕疵,用户也疯狂需要这样的工具。随后,分散在DeepMind和Brain的团队迅速合并,全力打造现在的Gemini。 “从此幸福生活,或者我们全部完蛋” 对于未来20年,这两位顶级大脑怎么看? Jeffrey Hinton依然保持着他那种极度锋利且略带悲观的坦诚。当被问及AI将如何重塑世界时,他说了一句足以做书名的话: “如果有人真的把超级AI造出来了,结局只有两个:要么我们从此过上幸福快乐的生活,要么我们全部完蛋。” 但他随后补充了更具体的影响:...
本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。 如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久? OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。 这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。 带着答案考试:ChatGPT 其实可以“省钱”做 回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。 今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。 早期 OpenAI:草台班子与“走错路”的探索 现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。 当时有没有走弯路?当然有。...
本文整理自 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论视频,由我和 Gemini 3 Pro 共同整理完成。 1. OpenAI 的大转向:2026 是“企业级”的一年 这就得从本周一在纽约的一场午餐会说起了。地点在中央火车站附近的 Rosemary’s 餐厅,OpenAI 的 CEO Sam Altman 和一群媒体界的大佬——包括《大西洋月刊》、《纽约客》和《纽约时报》的高管们——坐在一起。 在推杯换盏之间,Altman 抛出了一个重磅信号(Greg Brockman 随后也在推特上证实了这一点):OpenAI 接下来的重中之重,或者说 2026 年的主题,是企业级 AI(Enterprise AI)。 这听起来可能有点枯燥,但背后的逻辑非常有意思。 为什么是现在? 一直以来,OpenAI 大概是 70% 面向消费者(也就是我们要等到 2026 年第一季度才能体验到的“成人模式”聊天),30% 面向企业。但在企业服务这块,Anthropic 其实做得更好。 Altman 和他的团队意识到了两个残酷的现实: 模型正在商品化:Google 的 Gemini 现在的水平基本上已经追平了 GPT。大家手里的“大模型”底牌都差不多了。 没有直通 AGI 的捷径:单纯堆算力、堆数据带来的模型能力提升正在放缓。 所以,Sam Altman 在午餐会上直言不讳:“现在的瓶颈不是训练,而是应用。” 既然模型本身拉不开巨大差距,那就得看谁能把技术真正用在业务流程里赚钱。这也解释了为什么他们发布了 GPT-5.2(代号),这实际上是一个更擅长处理复杂工作流、待办事项和企业规划的版本。 这也带来了一个尴尬的问题: OpenAI 想做企业生意(毕竟那才是真正的大钱,预计明年这一块市场高达 375 亿美元),但它同时也得伺候好数亿的普通用户。企业用户需要严谨、准确的工具,而普通用户可能想要一个甚至会和你“调情”的 AI 伴侣。OpenAI 的高管 Fiji Simo 承认,他们想两头通吃,但这很难平衡。未来我们可能会看到两个截然不同的 ChatGPT:一个帮你做报表,一个负责陪你聊天。 2. 迪士尼入局:当米老鼠遇见 Sora 要是放在几年前,如果你跟我说迪士尼——这个对版权保护严苛到极致的公司——会主动把自家的 IP 喂给 AI,我肯定觉得你疯了。但这周,迪士尼和 OpenAI 达成了一项价值约 10 亿美元的重磅交易。...
Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview,这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平,旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面,能够同时提供卓越的性能和极高的响应速度。 Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro,但其运行速度更快,且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能,该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。 关键细节 性能与基准测试 超越前代:Gemini 3 Flash 在多项基准测试中表现优异,例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%,超越了 Gemini 2.5 Pro。 速度提升:根据人工智能分析基准测试,该模型的速度是 Gemini 2.5 Pro 的 3 倍。 推理能力:具备最先进的视觉和空间推理能力,支持缩放、计数和编辑视觉输入。 定价与成本效率 极低成本:在 Gemini API 和 Vertex AI 中,输入价格为每百万 token 0.50 美元,输出为 3 美元。 成本节约机制:标配上下文缓存功能,在重复使用 token 的情况下可降低 90% 的成本;通过 Batch API 异步处理可节省 50% 的成本。 实际应用案例 编程开发:在 SWE-bench Verified 测试中达到 78% 的准确率,优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台,支持快速迭代开发。 游戏领域:Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界,实现了以往只有专业级模型才能达到的质量。 深度伪造检测:Resemble AI 利用该模型进行近乎实时的多模态分析,速度比 Gemini 2....
OpenAI 于 2025 年 12 月 17 日发布了全新的旗舰级图像生成模型 GPT-Image 1.5。它能进行精准编辑,同时保持细节完好,并且生成图像的速度提升高达 4 倍。同时,在 ChatGPT 中推出了全新的 Images 功能,旨在让图像生成变得令人愉悦——激发灵感并使创意探索变得轻松自如。 全新的 Images 模型即日起向所有 ChatGPT 用户推出,并在 API 中以 GPT Image 1.5 的形式提供。ChatGPT 中的全新 Images 体验也于今日向大多数用户推出,Business 和 Enterprise 用户将在稍后获得访问权限。 精准编辑,保留重要细节 现在,当你要求对上传的图像进行编辑时,模型会更可靠地遵循你的意图——甚至包括细微之处——仅根据你的要求进行更改,同时保持光线、构图和人物外貌等元素在输入、输出和后续编辑中的一致性。 这开启了符合你意图的结果——更有用的照片编辑,更逼真的服装和发型试穿/试戴,以及保留原始图像精髓的风格滤镜和概念转换。总之,这些改进意味着 ChatGPT 可以充当你口袋里的创意工作室,既能进行实用编辑,又能进行富有表现力的重构。 编辑 该模型擅长各种类型的编辑——包括添加、删减、组合、混合和变换——因此你可以在获得想要的更改的同时,不丢失图像的独特之处。 从派对到直播洛杉矶滑板 将这两名男子和狗组合成一张 2000 年代胶片相机风格的照片,表现他们在孩子们的生日派对上看起来很无聊的样子。 在背景中添加混乱的孩子们,他们在扔东西和尖叫。 将左边的男子改为手绘复古动漫风格,将狗改为毛绒玩具风格,保持右边的男子和背景景物不变。 给他们都穿上看起来像这样的 OpenAI 毛衣。 现在移除这两名男子,只保留狗,并把它们放在一个看起来像附图的 OpenAI 直播中。 创意转换 模型的创造力通过转换得以闪耀,这些转换可以更改和添加元素——例如文本和布局——使想法变为现实,同时保留重要细节。这些转换既适用于简单的概念,也适用于更复杂的概念,并且可以使用全新 ChatGPT Images 功能中的预设风格和创意轻松尝试——无需书面提示词。 电影海报 80 年代健身教练 华丽玩偶 装饰品 时尚广告 装扮角色 绘画 饮料广告 用这两名男子的图像制作一张名为“codex”的老派好莱坞黄金时代电影海报。随意更改他们的服装以符合时代背景。 将演员的名字改为 Wojciech Zaremba(左)和 Greg Brockman(右) 由 Sam Altman 执导,Fidji Simo 制作。A Feel the AGI Pictures 出品。 指令遵循 该模型比我们的初始版本更可靠地遵循指令。这实现了更精准的编辑以及更复杂的原创构图,其中元素之间的关系按预期得以保留。...
本文整理自前 Meta 首席工程师、Claude Code 创造者 Boris Cherny 深度访谈。 你可能还没听过 Boris Cherny 这个名字,但如果你关注 AI 编程,你一定听说过 Claude Code。 Boris 是 Claude Code 的创造者,现在在 Anthropic 工作。在此之前,他在 Meta(Facebook)和 Instagram 摸爬滚打了多年,一路干到了 Principal Engineer(首席工程师/IC8 级别)。 从早期的 Facebook Groups 到 Instagram 的日本团队,再到如今在 Anthropic 重新定义编程方式,Boris 的职业生涯简直就是一本“工程师打怪升级指南”。 这不仅仅是关于写代码,更是关于如何在大厂里找到“潜需求”、如何用“旁门左道”的项目获得晋升,以及——在 AI 满天飞的今天,我们到底该怎么写代码? 一、 产品哲学的核心:寻找“潜需求” (Latent Demand) 如果问 Boris 做产品最重要的原则是什么,他会毫不犹豫地告诉你:潜需求。 什么意思?简单说就是:你永远没法让用户去做他们根本不想做的事。你只能发现他们已经在笨拙地尝试做的事,然后帮他们做得更顺滑。 他在 Facebook 时的几个成功项目都验证了这一点: Marketplace(二手交易市场): 他们发现 Facebook Groups 里居然有 40% 的帖子都是在买卖东西,尽管那个功能根本不是为此设计的。用户在“滥用”产品,这恰恰就是机会。 Facebook Dating: 数据显示,大量用户在查看非好友的異性主页。也是一种本来就存在的“潜需求”。 正如 Boris 所说:“找到用户的意图,然后给他们铺好路,别试图强行改变他们的行为。” 二、 大厂生存:跨部门协作与“Side Quests” 在大厂工作,常常像是在泥潭里跳舞。Boris 讲了一个他在 Facebook 做“Chats in Groups”项目时的噩梦。...
本文整理自 OpenAI Forum 发布的分享视频:Vibe Engineering with OpenAI’s Codex。 什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的 我们大概都经历过那种死线逼近的时刻,心里幻想着:“要是有个不知疲倦、不用睡觉的同事能帮我把这些代码写了该多好。” 在 OpenAI,Codex 就扮演着这个角色的。 最近在 OpenAI Forum 上,Global Affairs 团队的 Chris Nicholson 邀请了两位真正的“内行”——OpenAI 开发者体验负责人 Romain Huet 和技术专家 Aaron Friel,深入聊了聊一个最近很火的概念:Vibe Engineering(氛围工程)。 这不仅仅是一个流行词,它代表了软件开发的一种新范式:利用 AI 构建真正的生产级软件,同时让人类工程师对交付的每一行代码保持完全的掌控。 这不只是让 AI 吐出一堆代码然后祈祷它能跑通,而是把 AI 深度融入到设计、架构、调试甚至长周期的多步骤项目中。 今天,我们就来扒一扒 OpenAI 内部的工程师们究竟是怎么“生活”在未来的,以及作为普通开发者,我们可以怎么把这种工作流偷师过来。 从“Vibe Coding”到“Vibe Engineering” 你可能听说过“Vibe Coding”,通常指那种随意的、凭感觉的编程体验。但 Simon Willison 提出的“Vibe Engineering”是它的严肃版——它是 AI 驱动开发的进阶形态。 在这个形态下,大模型不再只是一个代码补全工具,它们变成了你的队友。 Romain Huet 分享了一个很有意思的观察:一年前,你会为了模型能写出一个贪吃蛇游戏或者 iPhone App demo 而兴奋。但现在,模型的能力已经进化到了可以处理长达数小时甚至数天的复杂任务。它们可以制定计划、做架构决策、编写测试,甚至自己检查自己的作业。 当 AI 学会了自我检查(Self-correction),它的表现就有了质的飞跃。这就是从“写代码”到“搞工程”的转变。 现场实战:把一个 Kotlin 项目重写为 Rust 光说不练假把式。Aaron Friel 在现场展示了一个非常硬核的 Demo,任务听起来就很让人头大:...
本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered Claude’s Memory System, and Here’s What I Found!。作者通过逆向工程深入探究了 Claude 的记忆系统,并将其与 ChatGPT 进行了详细对比。文章揭示了两者在处理记忆和上下文时的根本性架构差异,特别是 Claude 独特的“按需检索”机制。 Claude 的提示词结构 Claude 的提示词主要由以下四个部分组成: 系统提示词(System Prompt):包含静态指令、工具定义和安全限制。 用户记忆(User Memories):类似于长期记忆。 对话历史(Conversation History):当前的对话上下文。 当前消息(Current Message):用户最新发送的内容。 用户记忆(User Memories) 内容:存储关于用户的稳定事实(如姓名、职位、偏好、技术水平等)。 格式:以 XML 格式注入提示词中。 更新机制:既包含后台的隐式更新,也支持用户通过“记住这个”或“删除这个”等指令进行的显式编辑。 对话历史的处理机制 这是 Claude 与 ChatGPT 最大的不同之处,主要由三种机制协同工作: 滚动窗口(Rolling Window):针对当前对话,保留完整的消息内容(而非摘要),直到达到 Token 限制(约 190k tokens)。 conversation_search 工具:允许 Claude 根据主题或关键词搜索过去的对话。 recent_chats 工具:允许 Claude 根据时间检索最近的对话。 总结性对比 ChatGPT:依赖预计算的摘要,每次对话都自动注入,确保了轻量级的连续性,但细节较少。 Claude:依赖 conversation_search 和 recent_chats 等工具进行按需检索。这种方式更高效(不浪费 Token 在无关历史上)且更具深度,但流程上可能不如 ChatGPT 无缝,因为其依赖于模型的检索决策。 我逆向工程了 Claude 的记忆系统,这是我的发现! 2025年12月14日 · Manthan Gupta...
本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....