Andrej Karpathy:2025 LLM 年度回顾 - 5大关键范式转变与 Vibe Coding

本文翻译自 Andrej Karpathy 发布在 X 上的对于 2025 年 LLM 的年度回顾:2025 LLM Year in Review. 2025 年是 LLM(大型语言模型)取得长足进步且充满大事的一年。以下是一份我个人认为值得注意且略显意外的“范式转变”清单——这些事物改变了格局,并在概念上令我印象深刻。 1. 基于可验证奖励的强化学习 (RLVR) 在 2025 年初,各大实验室的 LLM 生产技术栈看起来大概是这样的: 预训练 (Pretraining, 约 2020 年的 GPT-2/3) 监督微调 (Supervised Finetuning, 约 2022 年的 InstructGPT) 基于人类反馈的强化学习 (RLHF, 约 2022 年) 在很长一段时间里,这是训练生产级 LLM 的稳定且行之有效的配方。在 2025 年,基于可验证奖励的强化学习 (RLVR) 崛起,成为了这一组合中事实上的新增主要阶段。通过在多个环境(例如数学/代码谜题)中针对可自动验证的奖励来训练 LLM,LLM 自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤,并学会了多种反复推敲以弄清问题的解题策略(参见 DeepSeek R1 论文中的例子)。这些策略在以前的范式中很难实现,因为对于 LLM 来说,最佳的推理轨迹和纠错方式是什么并不明确——它必须通过针对奖励的优化,自己找到行之有效的方法。 与 SFT 和 RLHF 阶段(这两个阶段相对较薄/较短,计算上只是微小的微调)不同,RLVR 涉及针对客观(不可被操纵)奖励函数的训练,这允许进行更长时间的优化。事实证明,运行 RLVR 提供了极高的能力/成本比,它吞噬了原本用于预训练的计算资源。因此,2025 年的大部分能力进步都是由 LLM 实验室消化这一新阶段的“剩余红利”所定义的,总体而言,我们看到了体量相似的 LLM,但 RL 运行时间要长得多。此外,这一新阶段独有的是,我们获得了一个全新的旋钮(以及相关的缩放定律),可以通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI o1(2024 年末)是 RLVR 模型的首次演示,但 o3 的发布(2025 年初)是一个明显的拐点,你能直观地感受到这种差异。...

December 25, 2025 · 2 min · fisherdaddy

Notion 创始人 Ivan Zhao:蒸汽、钢铁与无限思维 —— AI Agents 重塑未来组织

本文翻译自 Notion 创始人 Ivan Zhao 在 X 上发表的文章:Steam, Steel, and Infinite Minds。 每个时代都由其奇迹材料所塑造。钢铁锻造了镀金时代。半导体开启了数字时代。如今,AI 作为无限思维已经到来。如果历史教会了我们什么,那就是掌握这种材料的人将定义这个时代。 [左图:少年时期的安德鲁·卡内基和他的弟弟。右图:镀金时代的匹兹堡钢铁厂。] 19 世纪 50 年代,安德鲁·卡内基作为一名电报员,奔跑在匹兹堡泥泞的街道上。当时十分之六的美国人是农民。在两代人的时间里,卡内基和他的同辈们锻造了现代世界。马匹被铁路取代,烛光被电力取代,铁被钢取代。 从那以后,工作从工厂转移到了办公室。如今,我在旧金山经营一家软件公司,为数百万知识工作者打造工具。在这个行业重镇,每个人都在谈论通用人工智能(AGI),但二十亿案头工作者中的大多数尚未感受到它的存在。知识工作很快会变成什么样子?当组织架构吸收了永不休眠的思维时,会发生什么? [早期的电影看起来通常像舞台剧,只有一台摄像机对着舞台拍摄。] 这种未来往往难以预测,因为它总是伪装成过去的样子。早期的电话像电报一样简练。早期的电影看起来像是被拍摄下来的戏剧。(这就是马歇尔·麦克卢汉所说的“通过后视镜驶向未来”。) [今天最流行的 AI 形式看起来就像过去的谷歌搜索。引用马歇尔·麦克卢汉的话:“我们总是通过后视镜驶向未来。”] 今天,我们看到的是模仿谷歌搜索框的 AI 聊天机器人。我们正深陷于每一次新技术变革都会出现的那个令人不安的过渡阶段。 我没有关于接下来会发生什么的全部答案。但我喜欢用几个历史隐喻来思考 AI 如何在不同层面上发挥作用,从个人到组织,再到整个经济体。 最初的端倪可以在知识工作的高级祭司——程序员身上找到。 我的联合创始人 Simon 就是我们所说的“10 倍程序员”,但他现在很少写代码了。走过他的办公桌,你会看到他同时指挥着三四个 AI 编程智能体(Agent),它们不仅打字更快,而且会思考,这让他变成了“30-40 倍工程师”。他在午餐或睡前排好任务,让它们在他离开时工作。他已经成为无限思维的管理者。 [20 世纪 70 年代《科学美国人》的一项关于移动效率的研究激发了史蒂夫·乔布斯著名的“大脑的自行车”隐喻。只不过从那以后,我们一直在信息高速公路上费力地踩着踏板。] 20 世纪 80 年代,史蒂夫·乔布斯称个人电脑为“大脑的自行车”。十年后,我们铺设了互联网这条“信息高速公路”。但今天,大多数知识工作仍然是人力驱动的。这就像我们在高速公路上骑自行车一样。 有了 AI 智能体,像 Simon 这样的人已经从骑自行车毕业,转而驾驶汽车了。 其他类型的知识工作者什么时候才能开上车?必须解决两个问题。 [与编程智能体相比,为什么 AI 更难帮助知识工作?因为知识工作更加碎片化,且更难以验证。] 首先是上下文碎片化。对于编程,工具和上下文往往存在于一个地方:IDE、代码库、终端。但一般的知识工作分散在数十个工具中。想象一个 AI 智能体试图起草一份产品简介:它需要从 Slack 讨论串、战略文档、仪表盘中的上季度指标以及仅存在于某人脑海中的组织记忆中提取信息。今天,人类是胶水,通过复制粘贴和在浏览器标签页之间切换将所有这些缝合在一起。在上下文整合之前,智能体将仍然受困于狭窄的用例中。 第二个缺失的要素是可验证性。代码具有一种神奇的属性:你可以通过测试和报错来验证它。模型制造者利用这一点来训练 AI 更好地编程(例如强化学习)。但是,你如何验证一个项目是否管理得当,或者一份战略备忘录是否优秀?我们尚未找到改进一般知识工作模型的方法。因此,人类仍然需要在回路中进行监督、指导,并展示什么是好的结果。 [1865 年的《红旗法案》要求车辆在街道上行驶时,必须有一名旗手在车前行走(该法案于 1896 年废除)。这是一个不受欢迎的“人在回路中”的例子。] 今年的编程智能体教会了我们,“人在回路中(human-in-the-loop)”并不总是可取的。这就像让专人检查工厂流水线上的每一颗螺栓,或者走在汽车前面开路(参见:1865 年的《红旗法案》)。我们希望人类站在杠杆点上监督回路,而不是身处其中。一旦上下文得到整合且工作可验证,数十亿工人将从骑自行车转变为开车,进而从开车转变为自动驾驶。...

December 25, 2025 · 1 min · fisherdaddy

2026年十大惊人预测:从月球基地、AI接管工作到逆转衰老

本文整理自 Moonshots 播客特别节目: 2026 Predictions on AI, the State of the Economy, Humanoid Robots, and Space Exploration | EP #217。这次的讨论非常硬核,Peter Diamandis 和他的“Moonshot Mates”(包括 Emad, Salim, Alex 和 Dave)对 2026年 做出了 10 个极其大胆的预测。 这不是那种模糊的“未来会更好”的空话,而是关于技术奇点、商业模式重构和甚至人类寿命突破的具体推演。 系好安全带,我们要起飞了。 2026年十大预测:奇点临近,未来已来 如果说 2025 年让你觉得世界变化很快,那只是热身。根据 Moonshots 团队的最新推演,2026 年将是“感觉像未来”的一年。无论是在太空竞赛、AI 算力爆发,还是人类寿命的延长上,这一年都将成为历史的转折点。 以下是五位顶尖科技思想家对 2026 年的 10 个核心预测: 1. 太空竞赛易主:贝佐斯将在月球上击败马斯克 (预测者: Peter Diamandis) 这听起来可能有点反直觉,毕竟 SpaceX 现在的发射频率高得吓人。但 Peter 预测,在 2026 年,杰夫·贝佐斯(Jeff Bezos)的 Blue Origin 将率先在月球南极的 Shackleton 陨石坑着陆。 与此同时,埃隆·马斯克(Elon Musk)在忙什么?他会在这一年全力完善 Starship 的在轨加油技术,为 2027 年的火星发射窗口做准备。但这不仅是两个亿万富翁的游戏,中国也在这一赛道上紧追不舍。2026 年,以前那种科幻剧集里的“太空争霸”将真实上演。...

December 22, 2025 · 2 min · fisherdaddy

Sam Altman 访谈实录:OpenAI 的“红色代码”、万亿豪赌与被低估的 AI 潜能

本文整理自 Youtube 知名博主 Alex Kantrowitz 对 Sam Altman 的最新访谈。访谈中 Sam Altman 深度解析了 ChatGPT 的下一步:从应对 DeepSeek 和 Gemini 的“红色代码”时刻,到 1.4 万亿美元的基础设施算账逻辑。为何他认为目前的模型能力被严重低估?未来的 AI 硬件为何可能没有屏幕?本文为你详细解读 OpenAI 赢得这场 AI 军备竞赛的底层逻辑。以下内容由我和 Gemini 3 Pro 共同整理完成。 OpenAI 已经十岁了,而 ChatGPT 也走过了三个年头。在这个不仅被谷歌 Gemini 紧追不舍,还被 DeepSeek 点击软肋的时刻,外界都在问:OpenAI 还能保持领先吗? 最近,OpenAI CEO Sam Altman 在一档深度访谈中,非常坦诚地聊了聊现在的局势、那个让人咋舌的 1.4 万亿美元基建计划,以及他对未来 AI 形态的真实想法。 与其说这是一次商业访谈,不如说是一次对未来几年的预演。如果你关心 AI 的走向,这篇深度解读不容错过。 不要浪费一次好的“危机” 还记得前段时间 DeepSeek 带来的冲击吗?或者谷歌发布的 Gemini 3?Altman 并不避讳这些竞争对手的存在。 实际上,OpenAI 内部有过所谓的“红色代码(Code Red)”时刻。但这并不是外界想象中的那种恐慌性崩溃。对 Altman 来说,这种状态通常只会持续 6 到 8 周。这是一种健康的“偏执”——当 DeepSeek 展现出某种优势,或者竞争对手不仅在模仿还在超越时,这对 OpenAI 来说反而是好事。它暴露了产品策略中的弱点,迫使团队快速修补。...

December 19, 2025 · 1 min · fisherdaddy

诺贝尔奖得主 Geoffrey Hinton 与 Google 首席科学家 Jeff Dean 深度对谈:从赌场里的百万竞拍,到 AI 改变人类命运的赌注

本文整理自诺贝尔奖得主 Geoffrey Hinton 与 Google 首席科学家 Jeff Dean 进行的深度对谈。对谈中他们回顾了 AI 的历史,从 AlexNet 的卧室显卡训练,到赌场竞拍出售公司,再到 ChatGPT 引爆的 AI 时代。他们还畅谈了算力觉醒、TPU 往事及 AI 对人类未来的终极预测。以下内容由我和 Gemini 3 Pro 共同整理完成。 想象一下这个场景:加州圣地亚哥的NeurIPS大会,聚光灯下坐着两个人。一位是刚刚获得诺贝尔奖、被尊称为“AI教父”的Jeffrey Hinton(杰弗里·辛顿),另一位是Google的首席科学家、Gemini项目的联合负责人Jeff Dean(杰夫·迪恩)。 这是一场“双Jeff”的对话。他们不仅仅是在聊技术,更是在复盘过去几十年里,现代AI是如何从在一个留学生的卧室里跑数据,一路狂奔到如今足以改变人类文明进程的庞然大物。 即便你是AI圈的老炮,这场对话里也藏着不少你没听过的内幕——比如当年那场在赌场里进行的疯狂竞拍,或者早在ChatGPT数年前,Google内部其实已经有8万员工在用聊天机器人了。 算力觉醒:一个迟到了几十年的领悟 故事得从很久以前说起。Geoffrey Hinton早在80年代中期就搞出了反向传播算法(Backprop),而Jeff Dean在1990年写本科论文时,就已经在尝试并行训练神经网络了。 只要稍微懂点行的人都会问:既然算法有了,并行计算的想法也有了,为什么AI爆发得这么晚? Jeff Dean回忆起他的本科论文,当时他在32个处理器的机器上跑神经网络,结果发现效果并不好。但他犯了一个现在看来很“可爱”的错误:在增加处理器的时候,他没有增加模型的大小。 Hinton也坦承,自己在很长一段时间里都忽视了“算力”的重要性。早在80年代末,其实就已经有人证明了用并行计算跑语音模型比传统方法强,但大家(包括Hinton)都觉得那是大力出奇迹的笨办法,不如搞更精妙的算法。 直到2014年左右,Hinton才真正彻底“悟”了。AI的秘密其实简单得令人发指:模型更大、数据更多、算力更强,效果就会更好。 这是一个看似笨拙却无比有效的“缩放定律”(Scaling Law)。 传奇的开端:显卡、卧室和赌场 AI历史的转折点发生在2012年的AlexNet。这背后的故事比电影还精彩。 当时,Hinton的学生Alex因为不想写博士资格考试的文献综述,被Hinton逼着做ImageNet竞赛:每提高1%的准确率,就可以晚一点处理那个枯燥的考试。 于是,Alex买了两块GPU显卡,插在他父母家卧室的电脑上日夜训练。Hinton开玩笑说:“显卡钱是我们出的,但电费是他爸妈出的,我这是在帮学校省钱。”就这样,在卧室里诞生的AlexNet横扫了ImageNet,震惊了世界。 紧接着,高潮来了。那年冬天,为了收购Hinton和他的两个学生(Alex和Ilya)刚成立的空壳公司,几大科技巨头在NeurIPS大会期间的一个赌场酒店里展开了竞拍。 楼下是老虎机和赌桌,每当有人赢钱,铃声就大作;楼上,科技巨头们正以一百万美元为单位不断加价。虽然当时百度等公司也在竞价,但Hinton和学生们其实心里早有定数——他们想去Google,因为那是Jeff Dean在的地方,那是做研究最开心的地方。 最后,当价格高到一个疯狂的数字时,他们叫停了拍卖,选择了Google。 那个被黑莓错过的时代 在加入Google之前,其实还有一个让人唏嘘的插曲。Hinton的学生曾经把最新的语音识别技术推荐给了加拿大的国民企业——Research In Motion(黑莓手机的制造商)。 Hinton对他们说:“我们有比现在好得多的语音识别方案,免费教你们怎么做。” 结果黑莓傲慢地回复:“我们不需要语音识别,我们有全键盘。” 这个故事大概是那个时代最讽刺的注脚。后来,这项技术在Google落地,彻底改变了语音搜索的体验。 Google的秘密武器:TPU与被雪藏的聊天机器人 Jeff Dean在2013年做过一个简单的算术题:如果Google一定要把语音识别推给所有安卓用户,假设每人每天只用3分钟,Google当时的CPU算力得翻倍才撑得住。这意味着要买现在的两倍数量的服务器,这在财务上是不可接受的。 这个危机感直接催生了TPU(张量处理单元)的诞生。Jeff Dean在走廊里拦住CFO,硬是要了5000万美元预算,在连具体怎么用都还没完全想好的情况下,就把硬件搞出来了。现在回看,如果Google没有自研TPU,根本无法支撑如今庞大的AI训练需求。 至于大家最关心的——为什么Google起了大早却赶了晚集,让ChatGPT抢了先? 其实,早在ChatGPT发布之前,Google内部就已经有一个拥有8万日活用户的聊天机器人了(基于Meena/LaMDA技术)。员工们用它写代码、写信、甚至写论文摘要。但是,因为偶尔出现的“幻觉”问题(胡说八道),Google觉得这不符合“搜索公司”对准确性的严苛要求,所以迟迟不敢对公众发布。 直到OpenAI发布ChatGPT,引发了著名的“红色预警(Code Red)”,Google才意识到:哪怕有瑕疵,用户也疯狂需要这样的工具。随后,分散在DeepMind和Brain的团队迅速合并,全力打造现在的Gemini。 “从此幸福生活,或者我们全部完蛋” 对于未来20年,这两位顶级大脑怎么看? Geoffrey Hinton依然保持着他那种极度锋利且略带悲观的坦诚。当被问及AI将如何重塑世界时,他说了一句足以做书名的话: “如果有人真的把超级AI造出来了,结局只有两个:要么我们从此过上幸福快乐的生活,要么我们全部完蛋。” 但他随后补充了更具体的影响:...

December 19, 2025 · 1 min · fisherdaddy

OpenAI 创始人 John Schulman 复盘:如果重回 2015,我们能光速造出 ChatGPT 吗?

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。 如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久? OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。 这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。 带着答案考试:ChatGPT 其实可以“省钱”做 回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。 今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。 早期 OpenAI:草台班子与“走错路”的探索 现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。 当时有没有走弯路?当然有。...

December 18, 2025 · 1 min · fisherdaddy

OpenAI 的 2026 野心与迪士尼的豪赌:本周科技界发生了什么?

本文整理自 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论视频,由我和 Gemini 3 Pro 共同整理完成。 1. OpenAI 的大转向:2026 是“企业级”的一年 这就得从本周一在纽约的一场午餐会说起了。地点在中央火车站附近的 Rosemary’s 餐厅,OpenAI 的 CEO Sam Altman 和一群媒体界的大佬——包括《大西洋月刊》、《纽约客》和《纽约时报》的高管们——坐在一起。 在推杯换盏之间,Altman 抛出了一个重磅信号(Greg Brockman 随后也在推特上证实了这一点):OpenAI 接下来的重中之重,或者说 2026 年的主题,是企业级 AI(Enterprise AI)。 这听起来可能有点枯燥,但背后的逻辑非常有意思。 为什么是现在? 一直以来,OpenAI 大概是 70% 面向消费者(也就是我们要等到 2026 年第一季度才能体验到的“成人模式”聊天),30% 面向企业。但在企业服务这块,Anthropic 其实做得更好。 Altman 和他的团队意识到了两个残酷的现实: 模型正在商品化:Google 的 Gemini 现在的水平基本上已经追平了 GPT。大家手里的“大模型”底牌都差不多了。 没有直通 AGI 的捷径:单纯堆算力、堆数据带来的模型能力提升正在放缓。 所以,Sam Altman 在午餐会上直言不讳:“现在的瓶颈不是训练,而是应用。” 既然模型本身拉不开巨大差距,那就得看谁能把技术真正用在业务流程里赚钱。这也解释了为什么他们发布了 GPT-5.2(代号),这实际上是一个更擅长处理复杂工作流、待办事项和企业规划的版本。 这也带来了一个尴尬的问题: OpenAI 想做企业生意(毕竟那才是真正的大钱,预计明年这一块市场高达 375 亿美元),但它同时也得伺候好数亿的普通用户。企业用户需要严谨、准确的工具,而普通用户可能想要一个甚至会和你“调情”的 AI 伴侣。OpenAI 的高管 Fiji Simo 承认,他们想两头通吃,但这很难平衡。未来我们可能会看到两个截然不同的 ChatGPT:一个帮你做报表,一个负责陪你聊天。 2. 迪士尼入局:当米老鼠遇见 Sora 要是放在几年前,如果你跟我说迪士尼——这个对版权保护严苛到极致的公司——会主动把自家的 IP 喂给 AI,我肯定觉得你疯了。但这周,迪士尼和 OpenAI 达成了一项价值约 10 亿美元的重磅交易。...

December 18, 2025 · 1 min · fisherdaddy

快速了解一下 Google 发布的 Gemini 3 Flash Preview

Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview,这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平,旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面,能够同时提供卓越的性能和极高的响应速度。 Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro,但其运行速度更快,且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能,该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。 关键细节 性能与基准测试 超越前代:Gemini 3 Flash 在多项基准测试中表现优异,例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%,超越了 Gemini 2.5 Pro。 速度提升:根据人工智能分析基准测试,该模型的速度是 Gemini 2.5 Pro 的 3 倍。 推理能力:具备最先进的视觉和空间推理能力,支持缩放、计数和编辑视觉输入。 定价与成本效率 极低成本:在 Gemini API 和 Vertex AI 中,输入价格为每百万 token 0.50 美元,输出为 3 美元。 成本节约机制:标配上下文缓存功能,在重复使用 token 的情况下可降低 90% 的成本;通过 Batch API 异步处理可节省 50% 的成本。 实际应用案例 编程开发:在 SWE-bench Verified 测试中达到 78% 的准确率,优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台,支持快速迭代开发。 游戏领域:Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界,实现了以往只有专业级模型才能达到的质量。 深度伪造检测:Resemble AI 利用该模型进行近乎实时的多模态分析,速度比 Gemini 2....

December 18, 2025 · 2 min · fisherdaddy

介绍一下 GPT-Image 1.5

OpenAI 于 2025 年 12 月 17 日发布了全新的旗舰级图像生成模型 GPT-Image 1.5。它能进行精准编辑,同时保持细节完好,并且生成图像的速度提升高达 4 倍。同时,在 ChatGPT 中推出了全新的 Images 功能,旨在让图像生成变得令人愉悦——激发灵感并使创意探索变得轻松自如。 全新的 Images 模型即日起向所有 ChatGPT 用户推出,并在 API 中以 GPT Image 1.5 的形式提供。ChatGPT 中的全新 Images 体验也于今日向大多数用户推出,Business 和 Enterprise 用户将在稍后获得访问权限。 精准编辑,保留重要细节 现在,当你要求对上传的图像进行编辑时,模型会更可靠地遵循你的意图——甚至包括细微之处——仅根据你的要求进行更改,同时保持光线、构图和人物外貌等元素在输入、输出和后续编辑中的一致性。 这开启了符合你意图的结果——更有用的照片编辑,更逼真的服装和发型试穿/试戴,以及保留原始图像精髓的风格滤镜和概念转换。总之,这些改进意味着 ChatGPT 可以充当你口袋里的创意工作室,既能进行实用编辑,又能进行富有表现力的重构。 编辑 该模型擅长各种类型的编辑——包括添加、删减、组合、混合和变换——因此你可以在获得想要的更改的同时,不丢失图像的独特之处。 从派对到直播洛杉矶滑板 将这两名男子和狗组合成一张 2000 年代胶片相机风格的照片,表现他们在孩子们的生日派对上看起来很无聊的样子。 在背景中添加混乱的孩子们,他们在扔东西和尖叫。 将左边的男子改为手绘复古动漫风格,将狗改为毛绒玩具风格,保持右边的男子和背景景物不变。 给他们都穿上看起来像这样的 OpenAI 毛衣。 现在移除这两名男子,只保留狗,并把它们放在一个看起来像附图的 OpenAI 直播中。 创意转换 模型的创造力通过转换得以闪耀,这些转换可以更改和添加元素——例如文本和布局——使想法变为现实,同时保留重要细节。这些转换既适用于简单的概念,也适用于更复杂的概念,并且可以使用全新 ChatGPT Images 功能中的预设风格和创意轻松尝试——无需书面提示词。 电影海报 80 年代健身教练 华丽玩偶 装饰品 时尚广告 装扮角色 绘画 饮料广告 用这两名男子的图像制作一张名为“codex”的老派好莱坞黄金时代电影海报。随意更改他们的服装以符合时代背景。 将演员的名字改为 Wojciech Zaremba(左)和 Greg Brockman(右) 由 Sam Altman 执导,Fidji Simo 制作。A Feel the AGI Pictures 出品。 指令遵循 该模型比我们的初始版本更可靠地遵循指令。这实现了更精准的编辑以及更复杂的原创构图,其中元素之间的关系按预期得以保留。...

December 17, 2025 · 5 min · fisherdaddy

Claude Code 创始人的大厂晋升心法与 AI 编程未来实录

本文整理自前 Meta 首席工程师、Claude Code 创造者 Boris Cherny 深度访谈。 你可能还没听过 Boris Cherny 这个名字,但如果你关注 AI 编程,你一定听说过 Claude Code。 Boris 是 Claude Code 的创造者,现在在 Anthropic 工作。在此之前,他在 Meta(Facebook)和 Instagram 摸爬滚打了多年,一路干到了 Principal Engineer(首席工程师/IC8 级别)。 从早期的 Facebook Groups 到 Instagram 的日本团队,再到如今在 Anthropic 重新定义编程方式,Boris 的职业生涯简直就是一本“工程师打怪升级指南”。 这不仅仅是关于写代码,更是关于如何在大厂里找到“潜需求”、如何用“旁门左道”的项目获得晋升,以及——在 AI 满天飞的今天,我们到底该怎么写代码? 一、 产品哲学的核心:寻找“潜需求” (Latent Demand) 如果问 Boris 做产品最重要的原则是什么,他会毫不犹豫地告诉你:潜需求。 什么意思?简单说就是:你永远没法让用户去做他们根本不想做的事。你只能发现他们已经在笨拙地尝试做的事,然后帮他们做得更顺滑。 他在 Facebook 时的几个成功项目都验证了这一点: Marketplace(二手交易市场): 他们发现 Facebook Groups 里居然有 40% 的帖子都是在买卖东西,尽管那个功能根本不是为此设计的。用户在“滥用”产品,这恰恰就是机会。 Facebook Dating: 数据显示,大量用户在查看非好友的異性主页。也是一种本来就存在的“潜需求”。 正如 Boris 所说:“找到用户的意图,然后给他们铺好路,别试图强行改变他们的行为。” 二、 大厂生存:跨部门协作与“Side Quests” 在大厂工作,常常像是在泥潭里跳舞。Boris 讲了一个他在 Facebook 做“Chats in Groups”项目时的噩梦。...

December 16, 2025 · 2 min · fisherdaddy