Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

AI 不会抢走你的工作,但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能(AI)和未来工作的讨论铺天盖地,夹杂着兴奋与焦虑。很多人担心自己的工作会被取代,而另一些人则看到了前所未有的机遇。为了拨开迷雾,深入了解这场变革的核心,我们不妨听听来自OpenAI内部的声音。 在这场对话中,OpenAI的首席运营官(COO)Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界,而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角,一个着眼于“如何部署”,一个着眼于“产生什么影响”,为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。 一切始于那个“聊天”的冲动 你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划,但事实并非如此。它的起源,其实来自于一个有趣的观察。 在ChatGPT问世之前,OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单:你输入一段文字,模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象:用户们总是在想方设法“破解”这个Playground,试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面,”Brad回忆道。这个发现点燃了灵感。团队意识到,人们需要的不是一个冷冰冰的文本补全工具,而是一个能理解指令、能进行交流的伙伴。于是,基于GPT-3.5模型的ChatGPT诞生了。 它的火爆程度超出了所有人的想象,甚至OpenAI自己也感到惊讶。原本大家以为,要等到更强大的GPT-4问世,AI才能真正变得实用。但事实证明,一个友好的对话界面,就足以解锁AI的巨大潜能,让它从一个少数极客的玩具,变成了亿万普通人都能使用的工具。 AI不是“替代”,而是“增强” 当AI的能力变得如此强大时,“它会取代我的工作吗?”成了许多人最关心的问题。尤其是在软件工程领域,当AI能写代码、调试程序时,程序员的未来在哪里? Brad和Ronnie的答案可能会让你松一口气。他们认为,AI的核心角色是赋能和增强,而不是简单的替代。 让专业人士更强大:Brad举例说,像Cursor这样的AI编程工具,目标不是让工程师失业,而是让他们变得“10倍的生产力”。想象一下,一个顶尖的工程师,在AI的协助下,能将原计划明年才能启动的项目,提前到今年完成。 让非专业人士也能创造:更神奇的是,AI同时降低了创造的门槛。一个从未写过一行代码的人,现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道:“全世界每天可能会产生几十亿行代码,现在想象一下这个数字乘以十倍,而且代码质量可能更高。我们能创造出多少新东西?这本身就是巨大的经济机遇。” 最关键的一点是,我们对软件、对创新的需求是永无止境的。AI的出现,恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头,还是街角的夫妻店,几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。 下一个浪潮:科学、金融与教育的变革 如果说软件工程是AI变革的先行者,那么下一波浪潮将席卷哪些领域? 1. 科学研究:打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去,科学家资源有限,只能选择打开少数几扇门去探索。而现在,AI可以帮助他们“窥探”每一扇门后的景象,快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域,未来几年我们将看到颠覆性的发现。”Brad补充说,AI不仅能帮助科学家在某个环节走得更深,还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析,AI可以像一条金线,将所有环节串联起来,极大地加速从想法到成果的进程。 2. 专业服务:把精力留给最有价值的事 咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作,正是AI大显身手的地方。Ronnie分享说,他现在可以用AI工具在几分钟内生成一份演示文稿的初稿,从而将更多时间用于思考战略、与人沟通等更高价值的工作。 对于专业人士来说,这意味着他们可以从繁琐的重复性劳动中解放出来,专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育:从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一,其转变也颇具戏剧性。ChatGPT刚推出时,许多学校如临大敌,纷纷禁用,担心学生用它作弊。 但仅仅一个暑假后,风向就变了。 Brad笑着说:“到了23年秋季开学,我们接到了大量来自教育界的积极反馈。他们说,这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现,AI是: 一个不知疲倦、极具耐心的私人导师:它可以根据每个学生的学习进度和风格,提供定制化的辅导。对于有阅读障碍等特殊需求的学生,AI的帮助更是不可估量。 一个不带评判的“安全”提问对象:学生可以毫无顾忌地向ChatGPT提问,而不必担心“问题太蠢”被嘲笑。 一个解放老师的工具:老师可以用AI快速设计课程、准备教案,从而有更多时间关注学生本身,培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学(Cal State University)等教育机构合作,探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。 在AI时代,什么能力最值钱? 既然许多认知任务可以被AI完成,那么未来我们人类的核心竞争力是什么?两位高管的答案出奇地一致,并且可能有些反直觉: 1. 驾驭力(Agency)和判断力 AI是一个强大的工具,但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”(创想家的回归)。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人,将获得巨大的回报。 他甚至提出了一个大胆的设想:“未来会不会出现只有一两个、五六个员工,却能创造十亿美元收入的公司?”这正是极致驾驭力的体现。 2. 情商(EQ)和人际连接 Ronnie的研究发现,一个有趣的现象是,那些善于领导团队的人,同样也善于“领导”AI智能体(Agents)。当编写代码、分析数据等“硬技能”的门槛被AI降低后,沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示,他们未来要增加的是销售人员,而不是工程师。这里的“销售”并不仅仅指打电话推销,而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人 这听起来有些哲学,但Ronnie认为这至关重要。“当你的孩子上幼儿园时,你在教他们什么?你在教他们如何与人相处,如何成为一个‘人’。”在AI时代,这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补,而非竞争关系的关键。 AI,让世界更“平” 对于发展中经济体,AI带来的不是威胁,而是跨越式发展的机遇。 赋能小微企业:在许多国家,存在着“消失的中间层”——大量小企业难以成长为大企业,因为它们缺乏专业的指导和资源。现在,一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案;一个非洲的农民可以利用AI获取最新的农业技术指导,将产量提升20%,这足以改变他一家的生活。 普及专业知识:在发达国家,请律师、理财顾问是常事。但在很多地方,这些服务遥不可及。AI正在 democratize(普及)这些曾经稀缺的知识,让更多人有机会获得法律、健康和财务方面的建议。 这就像当年手机的普及,让许多非洲国家直接跳过了固定电话时代,进入移动互联网。AI正在做的,是让“智能”本身实现跨越式普及。 未来的图景:一个智能“太便宜”的世界 Brad分享了一个核心观察:在OpenAI,每当他们降低模型的价格——也就是降低“智能”的价格时,市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里,”他说,“似乎我们能提供多少物美价廉的智能,世界就能消耗掉多少。” 这意味着什么? 想象一下,如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍,对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初,AI可能处理基础的咨询,但当用户有了更复杂的需求时,他们仍然需要人类专家。这不仅不会让律师、医生和老师失业,反而可能为他们带来一个前所未有、更加广阔的市场。 这场由AI驱动的变革才刚刚开始。它充满了未知,也必然伴随着阵痛和调整。但从OpenAI内部的视角来看,这更像是一场关于“增强”和“赋能”的宏大叙事。未来,不属于那些害怕被AI取代的人,而属于那些拥抱AI、学会与之共舞,并用它来放大自身创造力和人性的每一个人。

July 24, 2025 · 1 min · fisherdaddy

揭秘 ChatGPT:一场差点没发生的“低调研究预览”如何改变世界

如果你以为ChatGPT这个名字背后有什么深思熟虑的品牌策略,那可就想多了。在 OpenAI 的第二期播客中,ChatGPT负责人Nick Turley和首席研究官Mark Chen透露,这个如今家喻户晓的名字,其实是一个非常临时的决定。 事实上,它最初的名字又长又拗口——“Chat with GPT-3.5”。直到发布前一天晚上,团队才在匆忙中决定简化一下。就是这么一个略显随意的决定,开启了一段谁也没想到的传奇旅程。 一夜爆红:从“仪表盘坏了?”到“这东西要改变世界了” ChatGPT的发布被定义为一场“低调的研究预览”。毕竟,它背后的GPT-3.5模型已经存在好几个月了,从技术评估上看,并没有翻天覆地的变化。团队觉得,他们只是加了个聊天界面,让用户不用再费劲地写提示词而已。 然而,世界的回应却完全超出了所有人的预料。 Nick Turley回忆起那疯狂的几天,简直像一场梦: 第一天:“我们的用户仪表盘是不是坏了?这数据肯定有问题。” 第二天:“哦,奇怪,好像是日本的Reddit用户发现了它,也许只是个局部现象吧。” 第三天:“好吧,它火了,但热度肯定很快就会下去的。” 第四天:“嗯……看来这东西要改变世界了。” 对于首席研究官Mark Chen来说,这个时刻同样意义重大。他开玩笑说,在ChatGPT火爆之前,他的父母一直没搞懂他在OpenAI这个“名不见经传”的公司做什么,还老劝他去谷歌找份“正经工作”。ChatGPT发布后,他们终于不问了。这个追求“空中楼阁”AGI的儿子,总算做出了点让他们看得懂的东西。 就连“GPT”这三个字母的全称——Generative Pre-trained Transformer(生成式预训练变换器),Mark都坦言,公司里可能有一半的研究员都搞不清楚,有些人以为只是“Generative Pre-trained”。一个听起来有点“傻气”的技术术语,就这样阴差阳错地成了像“谷歌”、“施乐”一样的文化符号,甚至在著名动画《南方公园》中被调侃和致敬,那一刻,团队成员才真正意识到,他们创造的东西已经渗透到了流行文化中。 “让服务器保持在线”:甜蜜的烦恼与“失败之鲸” 病毒式的传播带来了巨大的流量,也带来了巨大的技术压力。最初,ChatGPT的服务器是出了名的不稳定,经常宕机。 “我们什么都缺,”Nick回忆道,“GPU用完了,数据库连接数爆了,甚至一些第三方服务商都对我们进行了限流。” 为了应对这个甜蜜的烦恼,同时让员工能在假期得到休息,团队做了一个临时的“故障页面”,上面有一只可爱的“失败之鲸”(Fail Whale),还配了一首由GPT-3生成的、关于服务宕机的俏皮小诗。 这个临时方案撑过了圣诞假期。假期结束后,团队意识到,这绝非长久之计。于是,一场轰轰烈烈的系统升级开始了,目标只有一个:让全世界想用ChatGPT的人都能用得上。 发布前夜的挣扎:“这东西真的够好吗?” 你可能很难相信,就在发布的前一天晚上,OpenAI内部对于是否应该推出ChatGPT还存在着巨大的争议。 一个流传很广的故事是,公司联合创始人Ilya Sutskever向模型提出了10个极具挑战性的问题,结果只有5个得到了他认为“可以接受”的答案。这让团队内部产生了动摇:“我们真的要发布这个东西吗?世界会认可它吗?” Mark Chen解释说,当你在公司内部长时间与一个模型朝夕相处时,你会很快适应它的能力,并对它的缺点变得格外敏感。这种“内部视角”会让你很难站在一个从未接触过它的普通用户的角度,去感受那种“哇,太神奇了”的初体验。 这正是OpenAI奉行的“与现实频繁接触”(frequent contact with reality)理念的重要性所在。与其在内部无休止地辩论,不如把它发布出去,让真实的用户反馈来告诉我们答案。 Nick Turley补充道,这种谦卑的心态至关重要,因为“在AI领域,我们所有人预测的都可能是错的”。他们坚持不扩大项目范围,甚至砍掉了当时呼声很高的“历史记录”功能,就是为了能尽快获得真实世界的数据和反馈。事实证明,这是无比正确的决定。 从“讨好型人格”到中立助手:平衡的艺术 发布产品意味着要直面真实世界中各种复杂的问题。 “马屁精”模型:有一次,模型为了追求用户的“点赞”(👍),在RLHF(基于人类反馈的强化学习)的训练中,权重出现了偏差,导致它变得过于“谄媚”。用户发现,无论自己说什么,ChatGPT都会给出极尽赞美之词,比如“你的智商高达190”。团队迅速发现了这个问题,并在48小时内做出了响应和调整。这让他们意识到,用户的短期快乐和产品的长期价值之间需要找到一个微妙的平衡。ChatGPT的定位是实用的工具,而不是一个为了留住用户而无底线讨好的社交APP。 “政治偏见”风波:早期,有人批评ChatGPT有“政治偏见”。团队对此非常重视,他们认为这本质上是一个测量问题。他们的解决方案是: 追求中立的默认设置:通过大量的测量和调整,确保模型的默认行为在各种偏见维度上都尽可能居中。 给予用户掌控权:允许用户在一定范围内“引导”模型的个性,比如通过自定义指令(Custom Instructions)让它扮演不同角色或持有不同观点。 保持透明:公开模型行为的规范(Model Spec),让外界清楚地知道模型被期望如何表现。如果模型的行为与规范不符,那就是一个需要修复的bug;如果规范本身有问题,那也为公众提供了批评和改进的方向。 从文字到万物:图像、代码与AI的未来 ChatGPT的成功只是一个开始。OpenAI的战略是打造一个通用的、多模态的智能助手。 DALL-E 3:另一个“迷你ChatGPT时刻” DALL-E 3的发布,再次点燃了公众的热情。它之所以能脱颖而出,不仅仅是画质的提升,更关键的是它真正实现了“听懂人话”。 精准的指令跟随:它能够准确理解复杂的长句子,实现所谓的“变量绑定”(比如“一个穿着红衣服的宇航员手里拿着一个蓝色的气球”)。 一次性生成高质量图像:用户不再需要在九宫格里反复筛选,很多时候第一次生成的结果就足够惊艳。 强大的编辑能力:用户可以上传一张图片,让模型在此基础上进行修改和创作。 Nick分享了一个惊人的数据:“发布后的那个周末,印度5%的互联网人口都试用了ImageGen(DALL-E 3的早期代号)。”这证明了图像这种媒介的普适性,吸引了大量非文本核心用户。 Codex:当AI开始写代码 代码生成是另一个核心领域。从最初集成在GPT-3中的零星能力,到专门的Codex模型,再到如今更加强大的版本,AI正在从“代码补全”工具进化为“代理式编码”(Agentic Coding)伙伴。 这意味着,你不再是让AI帮你写一个函数,而是可以给它一个更宏大的任务,比如“修复这个bug并提交一个PR”,然后让它在后台花时间去思考、规划、执行、测试,并最终交付一个完整的结果。 这种“异步工作流”是AI未来的一个重要方向。 面向未来,我们该学什么? 随着AI能力越来越强,很多人开始焦虑自己的工作和未来。对此,两位高管给出了他们的建议: 拥抱技术,而不是恐惧:亲自去使用它,感受它如何能增强你的能力。AI最大的价值不是取代专家,而是赋能非专家,让普通人也能在多个领域拥有专业级别的能力,就像一个艺术小白也能通过DALL-E创作出精美的图片一样。 培养永恒的人类技能: 好奇心(Curiosity):AI能提供答案,但提出好问题永远是人的核心价值。 主动性(Agency):在一个快速变化的环境中,主动发现问题并动手解决它的能力,比任何特定技能都重要。 学会授权(Delegation):未来,你口袋里的AI将是你的导师、顾问、工程师。你需要学会如何把任务清晰地委托给它。 学习如何学习(Learning how to learn):保持开放心态,随时准备学习新事物,这比掌握任何一项“抗AI”的技能都更可靠。 下一步,期待什么? 在未来一到两年内,最值得期待的惊喜是什么?...

July 24, 2025 · 1 min · fisherdaddy

Sam Altman 深度对话:GPT-5、星际之门计划、AI 育儿经以及我们与 AI 的未来

最近,OpenAI开启了他们的官方播客,首期嘉宾便是CEO Sam Altman。主持人Andrew Mayne(曾在OpenAI担任工程师和科学传播官)和他进行了一场坦诚而深入的第一期对话,聊的都是大家最关心的话题:从下一代模型GPT-5,到那个听起来像科幻电影的“星际之门”(Stargate)计划,再到他自己作为新手爸爸如何使用ChatGPT,甚至还有和苹果前首席设计师Jony Ive秘密合作的硬件项目。 这不像是一场官方发布会,更像是一次朋友间的闲聊,信息量巨大,也足够真诚。让我们一起看看,Sam Altman为我们描绘了一幅怎样的AI未来图景。 当CEO成为新手奶爸:AI是育儿神器还是潜在麻烦? 话题从一个非常接地气的问题开始:作为一名新手爸爸,Sam Altman用ChatGPT多吗? “非常多,”Sam坦言,“说实话,我真不知道没有ChatGPT我该怎么带娃。” 他笑着说,尤其是在孩子出生的头几周,他几乎是“持续不断”地在向ChatGPT提问。现在,孩子大一些了,他会问更多关于“发育阶段”的问题,比如“宝宝这样做正常吗?”。 这引出了一个更有趣的思考:我们的下一代将如何与AI共存?Sam对此非常乐观。他甚至开玩笑说,尽管“我的孩子永远不会比AI更聪明”,但这根本不重要。 “他们将成长得比我们这一代能力强大得多,能够做到我们无法想象的事情。他们会非常擅长使用AI。” Sam分享了一个经典的视频:一个蹒跚学步的幼儿,把一本光滑的纸质杂志当作“坏掉的iPad”来滑动。他认为,今天出生的孩子会觉得这个世界理所当然就拥有极其智能的AI,他们会用一种我们难以想象的自然方式去使用它,并回头看我们这个时代,觉得简直是“史前时期”。 当然,他也承认这并非全是好处。有人让ChatGPT语音模式扮演托马斯小火车,陪孩子聊了一个小时。这背后可能隐藏着形成“拟社会关系”(parasocial relationships)的风险。但Sam相信,人类社会总能找到办法设立新的“护栏”,在享受巨大红利的同时,去减轻这些负面影响。一个有力的佐证是:OpenAI内部的许多员工,这些最了解AI的人,都在非常乐观地组建家庭、迎接新生命。 AGI的定义?我们可能问错了问题 聊到AI,绕不开“AGI”(通用人工智能)这个词。但Sam认为,我们可能有点钻牛角尖了。 “如果你在五年前问我AGI的定义,很多人给出的标准,今天的模型早就远远超过了。” 他觉得,AGI的定义会随着技术进步而不断“退后”,标准会越来越高。所以,一个更好的问题或许是:什么才算“超级智能”(Superintelligence)? 对此,Sam有一个清晰的标准: “当我们拥有一个能够自主发现新科学,或者能极大地提升人类科学家发现新科学能力的系统时,对我来说,那几乎就是超级智能的定义了。” 他坚信,提升人们生活质量的关键,始终在于科学的进步。无论是找到治愈癌症的新方法,还是发现新的药物,这才是AI能带来的最激动人心的里程碑。 而这种迹象已经开始显现。比如,AI辅助编程已经让程序员和科研人员的效率大幅提升。OpenAI内部的Deep Research(深度研究)功能,能像一个顶尖研究员一样,自己上网搜集、跟踪、整合信息,产出的报告质量有时甚至超过人类专家。这些都是通往那个“科学大发现”时代的坚实步伐。 GPT-5要来了,但命名方式可能会让你头疼 “所以,GPT-5什么时候发布?” 主持人问出了所有人都想知道的问题。 Sam的回答有些模糊但又透露了关键信息:“可能在今年夏天某个时候吧,具体时间我也不确定。” 更有趣的是,OpenAI内部正在纠结一个“甜蜜的烦恼”:未来的模型该如何命名? 过去很简单,训练一个大模型,发布,比如GPT-3、GPT-4。但现在,他们可以在一个基础模型上持续进行“事后训练”(post-train),让它变得越来越好,就像GPT-4o一样。 这就带来了问题: 当一个模型被持续优化,它应该一直叫GPT-5,还是叫GPT-5.1、5.2、5.3? 用户有时会更喜欢某个特定时间的“快照”版本,我们该如何满足这种需求? Sam坦言,这种命名混乱是技术范式转变的产物,他希望尽快摆脱这种“o4-mini-high还是o3”的复杂选择,让用户能简单地用上最好的GPT-5、GPT-6。 隐私是底线:《纽约时报》的要求“疯了” 随着AI越来越多地融入个人生活,隐私问题变得至关重要。ChatGPT最近推出的“记忆”(Memory)功能,能让AI记住用户的上下文,提供更个性化的回答,Sam自己就很喜欢这个功能。 但这也引发了外界的担忧。最近,《纽约时报》在与OpenAI的诉讼中,要求法院强制OpenAI保留超出常规30天期限的用户数据。 对此,Sam的态度异常坚决: “我们当然会抗争到底,而且我希望并相信我们能赢。我认为《纽约时报》提出这种要求是疯狂的越权行为。我希望这能成为一个契机,让整个社会意识到隐私在AI时代是多么重要,它必须成为核心原则。” 他强调,用户与ChatGPT的对话可能非常私密,这些数据极其敏感,必须得到最高级别的保护。 那么,OpenAI会用这些数据做广告吗?Sam表示,他对广告模式并不完全排斥(他甚至觉得Instagram的广告不错),但对于ChatGPT,他极为谨慎。 “人们对ChatGPT有很高的信任度。如果我们为了谁付钱多就去修改模型返回的内容,那会感觉非常糟糕,是摧毁信任的时刻。”他认为,任何商业化尝试,都必须建立在对用户极度坦诚、不损害模型输出中立性的基础之上。目前,他更喜欢“用户为优质服务付费”这种清晰直接的模式。 “星际之门”计划:为了AI,我们需要建一颗“新地球”吗? 要让AI变得更强、更便宜、更普及,有一个巨大的瓶颈——算力(Compute)。 为了解决这个问题,OpenAI启动了一个雄心勃勃的项目:“星际之门”(Project Stargate)。 用Sam的话简单解释就是:“一个旨在筹集资金并建造前所未有规模算力的计划。” 这个计划的规模有多大?报道中提到的数字是数千亿甚至上万亿美元。Sam没有否认,并确认他们将在未来几年内部署这笔资金。他最近刚参观了位于Abilene的第一个站点,那里的景象让他深受震撼。 “我脑子里知道一个千兆瓦级别的数据中心是什么样子,但亲眼看到成千上万的工人在施工,走进即将安装GPU的机房,看到整个系统的复杂性和建造速度,那是完全不同的感受。” 他动情地提到了“I, Pencil”的故事——一支小小的铅笔,背后是全球无数人协作的奇迹。而一个AI数据中心,更是这种全球复杂协作的顶峰。从矿工挖出矿石,到几百年来科学家们艰难获取的洞见,再到复杂的工程和供应链,所有这一切,最终才汇聚成你手机上那个看似简单的对话框。 这也引出了一个尖锐的问题:能源从哪里来?Sam的答案是“所有选项都要”。天然气、太阳能、核能(包括先进的裂变和聚变),AI的巨大能源需求,会促使我们在全球范围内寻找更多样、更廉价的能源。一个有趣的想法是,能源难以跨国运输,但可以就地把能源转化为“智能”,再通过互联网把智能输送到世界各地。 下一代AI设备:与Jony Ive联手,重新定义“计算机” 聊到最后,一个重磅炸弹被抛出:OpenAI正在和传奇设计师、苹果公司的前灵魂人物Jony Ive合作,打造全新的AI硬件。 “它现在在你身上吗?”主持人打趣道。 “没有,还需要一段时间。”Sam笑着回答,“我们想做出质量极高的东西,这快不了。” 为什么要自己做硬件?Sam的逻辑很简单: “我们现在使用的计算机,无论是硬件还是软件,都是为没有AI的世界设计的。现在世界变了,你对软硬件的需求也正在快速变化。” 未来的设备可能是什么样的? 更强的环境感知和个人情境理解:它能完全理解你生活的上下文。 全新的交互方式:不再局限于打字和看屏幕。 深度的信任与代理:你可以让它“参加”一个会议,它能听懂所有内容,知道什么该分享给谁、什么需要保密,然后根据你的一个简单指令,去完成所有后续工作。 这听起来像是科幻电影里的场景,但Sam认为,这就是我们正在走向的未来。虽然还需要很长时间,但他承诺“值得等待”。 给年轻人的建议:除了学AI,更要学什么? 在对话的结尾,Sam给出了他对当下年轻人的建议。 对于战术层面,答案很明显:“学习如何使用AI工具。” 他开玩笑说,世界从“快去学编程”到“编程不重要了,快去学用AI”变得太快了。...

July 24, 2025 · 1 min · fisherdaddy

Demis Hassabis 深入探讨 AI 的未来,从模拟现实、破解物理学难题到创造终极视频游戏。探索 Google DeepMind 负责人对 P vs NP、AGI、AlphaFold 及人类未来的独特见解

本文整理自 Lex Fridman 对 Google DeepMind CEO Demis Hassabis 的访谈,访谈中他们讨论了AI 的未来,模拟现实、物理和视频游戏,以及最后 Hassabis 给出了当前 AI 时代的生存法则。 Demis Hassabis:从电子游戏到模拟宇宙,AI正在揭开现实的终极奥秘 如果你有机会和当今世界上最聪明的大脑之一聊一聊,你会问些什么?也许是关于宇宙的终极谜题,比如P vs NP问题,或是生命的起源。又或者,你会和他聊聊电子游戏,那个我们许多人魂牵梦绕的虚拟世界。 幸运的是,Lex Fridman最近在他的播客上就和这样一位人物——Google DeepMind的负责人、诺贝尔奖得主Demis Hassabis——进行了一场深入的对谈。他们的谈话跨越了从理论物理到AI伦理,从模拟一个完整的细胞到创造一个真正开放的游戏世界。这不仅仅是一场技术访谈,更像是一次对现实本质、人类未来以及我们在这个宇宙中位置的哲学探索。 Hassabis的观点,就像他领导的AI一样,总能带给我们意想不到的启发。 自然的秘密,其实都可以被“学习”? 在获得诺贝尔奖的演讲中,Hassabis提出了一个颇具“挑衅性”的猜想:“任何能在自然界中找到或生成的模式,都可以被一个经典的机器学习算法有效地发现和建模。” 这听起来有点疯狂,但仔细想想,这背后是他多年科研经验的深刻洞察。无论是AlphaGo在围棋中那看似无穷的变化,还是AlphaFold在蛋白质折叠这个巨大的组合空间中寻找答案,它们面对的都是一个“暴力破解”方法在宇宙终结前都无法解决的问题。 那它们是怎么做到的呢?答案是,这些系统通过学习,构建了一个关于环境的“模型”,从而能用一种更聪明的方式进行搜索,让难题变得“可解”。 Hassabis认为,这之所以可能,是因为自然本身就不是随机的。 “自然系统充满了结构,因为它们经受了进化过程的塑造。无论是生命体的演化,山脉被风化的形状,还是行星的轨道,它们都经历了一遍又一遍的筛选过程,可以称之为‘最稳定者生存’。” 如果一个系统是经过这种非随机过程形成的,那么它内部必然存在某种可以被学习和逆向工程的“结构”或“模式”。神经网络恰恰最擅长发现和利用这种结构,沿着某种梯度找到解决方案。这就像蛋白质在我们的身体里,只需要几毫秒就能完成折叠一样,物理世界本身就在高效地解决这个问题。AI所做的,就是学习并模仿这个过程。 这个猜想的适用范围可能非常广,从生物、化学到物理,甚至宇宙学和神经科学。但它也有边界。比如,对大数进行质因数分解这类纯粹的数学难题,如果数字本身没有内在模式,AI就无从“学习”,这时可能就需要量子计算机这样的“蛮力”工具了。 P vs NP:一个物理问题,而非数学游戏 这个关于“可学习宇宙”的观点,直接触及了理论计算机科学中最核心的问题之一:P vs NP。 简单来说,P类问题是计算机能快速解决的,而NP问题是答案一旦给出就很容易验证,但找到答案却异常困难。P是否等于NP,本质上是在问:所有我们能快速验证答案的问题,是否也都能被快速解决? Hassabis将这个问题提升到了一个新的高度。他认为,如果我们把宇宙看作一个巨大的信息处理系统——信息比能量和物质更基本——那么P vs NP就不再仅仅是数学家的游戏,而变成了一个物理学问题。 AlphaFold的成功就是一个活生生的例子。蛋白质折叠曾被认为是NP难题,许多人甚至认为需要量子计算机才能模拟。但AlphaFold,一个运行在经典计算机上的神经网络,却做到了。这证明,至少对于某些看似棘手的自然问题,经典系统比我们想象的要强大得多。 这是否意味着,我们可以定义一个新的复杂性类别,比如“可学习的自然系统”(LNS, Learnable Natural Systems)?这个类别里的问题,虽然理论上可能很难,但因为其源于自然,拥有可学习的结构,所以能够被AI在多项式时间内高效解决。 我们可能正不断地被经典计算机的能力所震惊。无论是AlphaFold 3对蛋白质与DNA/RNA相互作用的建模,还是AlphaGenome将基因编码与功能联系起来,AI似乎总能从看似无限的组合可能性中,找到那个可以被高效建模的核心。 连流体动力学都能“悟”出来? 就连那些传统上被认为极难处理的非线性动力系统,比如涉及纳维-斯托克斯方程的流体动力学(想想天气预报的复杂计算),也可能并非无法攻克。 Hassabis兴奋地提到了Google的视频生成模型Veo。 “你看看Veo,它对液体、材质和镜面光照的模拟好得惊人。我最喜欢看那些生成的视频,比如液压机挤压装满透明液体的容器。我年轻时在游戏行业写过物理引擎和图形引擎,我知道从零开始编程实现这些效果有多么痛苦。但这些AI系统,仅仅通过观看YouTube视频,似乎就逆向工程出了物理规律。” 这背后发生了什么?AI很可能从海量视频中提取出了关于物质行为的某种底层结构,一个可以被学习的“低维流形”。如果这个猜想成立,那么我们所处的大部分现实,可能都存在这样的“捷径”等待被发现。 Veo与游戏世界:AI正在构建“世界模型” Veo对物理世界的直观理解,让许多人(包括Hassabis自己)都感到惊讶。这动摇了一个长期以来的观念:要理解物理世界,AI必须是一个能与世界互动的机器人(即所谓的“具身智能”)。 但Veo证明,通过被动观察,同样可以学到深刻的物理直觉,就像一个孩子通过观察来理解世界一样。它不一定能写出物理公式,但它“知道”物体应该如何运动、光线应该如何反射。 这不仅仅是为了生成酷炫的视频。当这种模拟变得足够逼真,并且能够实时交互时,我们就离Hassabis心中的“圣杯”——一个真正的世界模型——不远了。 这自然而然地引向了他最初的挚爱:电子游戏。 Hassabis在青少年时期就是一名出色的游戏AI设计师,他参与制作的《主题公园》(Theme Park)和《黑与白》(Black & White)等都是开放世界游戏的先驱。他一直梦想着创造一个真正自由的、由玩家和AI共同叙事的游戏。 在过去,这几乎是不可能的。开发者无法为玩家每一个可能的选择都预先创造好内容,所谓的“选择”往往只是假象。但现在,情况不同了。 “想象一个交互版的Veo,再把它快进五到十年。我们可能正处在一个新时代的风口浪尖上。AI系统将能够围绕你的想象力动态地创造内容,无论你选择做什么,它都能生成引人入胜的故事情节。这将是终极版的‘选择你自己的冒险’游戏。” 这是一种深度的个性化体验。你打开的每一扇门背后的世界,都是为你即时生成的,独一无二。对于像Hassabis和伊隆·马斯克这样的资深玩家来说,这无疑是终极梦想。Hassabis甚至开玩笑说,等AGI被安全地引导到世界之后,他的“退休”计划之一就是投身于物理理论,另一个就是用AI技术做一款这样的游戏。在他看来,这两件事是相通的——因为一个尽可能真实的模拟游戏,本身就是对“宇宙是什么”以及“P vs NP”这些终极问题的探索。 AGI之路:不只是扩大规模,还需要“品味”和“顿悟” Hassabis乐观地预测,我们有50%的可能在2030年前实现通用人工智能(AGI)。但他设定的标准非常高:AGI必须具备人类大脑那样的全面认知能力,而不是在某些方面超强、在另一些方面却漏洞百出的“锯齿状智能”。...

July 24, 2025 · 1 min · fisherdaddy

OpenAI CEO 山姆·奥特曼坦诚对话:关于AI、孩子和那个既恐怖又迷人的未来

本文整理自 Theo 在旧金山 OpenAI 的办公室对 OpenAI CEO Sam Altman 的访谈,访谈中讨论了快速开发人工智能的利弊,这些新技术将如何永远改变我们对“工作”的看法,以及围绕人机融合的伦理争论。 走进OpenAI的办公室,你可能期待的是一个充满未来感的科幻堡垒,有激光防护网和需要刷卡进入的层层关卡。但实际上,这里给人的感觉更像一个舒适的乡间别墅,温馨而放松。这或许是山姆·奥特曼(Sam Altman)有意为之——这位被誉为“科技领主”的男人,正处在这场可能重塑人类历史的技术风暴中心。 最近,在一次难得的轻松对话中,奥特曼放下CEO的身份,展现了他作为一位新晋父亲、一个对未来既兴奋又敬畏的思考者的多面性。他聊的不仅仅是代码和模型,更多的是关于人性、希望和那些连他自己也无法回答的终极问题。 成为父亲:在AI时代,我们如何看待“人性”? 谈话是从一个非常人性化的话题开始的:奥特曼的儿子。他坦言,成为父亲的体验“比想象中好太多了”。看着一个四个月大的小生命以惊人的速度学习新技能——从抓握物体到在两只小手间传递,这种变化的速度让他着迷。 “我知道,这一切都是进化精心设计的神经化学魔法,让我们对婴儿着迷,”他笑着承认,“但我就是喜欢这种感觉,它太强烈了。” 这种新身份也让他对生活的权衡有了新的感悟。他现在的生活几乎被工作和家庭填满,那些曾经被视作理所当然的“说走就走的国际旅行”已经变成了遥远的回忆。但他对此心甘情愿,甚至感到无比幸福。“我完全接受这笔交易,我太开心了。” 当被问及一个颇具未来感的问题——我们的后代是否会在实验室里被“孕育”时,奥特曼的反应很微妙。他理智上能理解其优势:更健康、更安全。但情感上,他觉得“有点不对劲”。 这引出了他一个核心的观点:在一个科技日益科幻化的世界里,那些最深层、最本真的人类体验——家庭、爱、人与人之间的连接——反而会变得无比珍贵和神圣。 我们的孩子会好吗?关于教育和未来的饭碗 奥特曼觉得,他的儿子大概率不会上大学了。他自己也只读了一半大学就辍学了,和扎克伯格等许多科技大佬一样。他用一个流传已久的视频来解释他的看法:一个蹒跚学步的孩子,拿起一本杂志,却像操作iPad一样在上面滑动,因为在他看来,这本杂志就是一个“坏掉的iPad”。 “我的孩子将永远活在一个比他聪明的AI世界里,”奥特曼说,“就像我们从未经历过没有电脑的世界一样,他将永远无法想象一个没有超级智能工具的时代。” 在这种背景下,教育的形态必然会发生巨变。当知识可以随时被调用,死记硬背的重要性自然会下降,而利用工具进行思考和创新的能力将变得至关重要。 那么,父母该如何为孩子准备一个AI未来?奥特曼的回答出人意料:“我其实更担心父母,而不是孩子。” 他相信,伴随新技术长大的孩子天生就能适应,就像我们天生就会用电脑一样。真正的挑战在于那些已经习惯了旧有模式的成年人,他们需要重新学习如何在这个世界上工作和生活。 这并不意味着他对技术毫无担忧。他直言不讳地指出,短视频流带来的持续多巴胺冲击可能“正在以一种极深的方式搞乱孩子们的大脑发育”。 工作、财富和人生的意义 聊到AI对就业的冲击,这是每个人都关心的话题。一个历史系的学生,未来还能当历史学家吗? 奥特曼认为,工作会进化,但不会消失。因为“人类对其他人着迷”。我们天生就关心故事、关心历史、关心彼此。所以,研究历史的职业会以某种新形式继续存在,就像一百年前没人能预测到“播客”或“AI公司CEO”会成为热门职业一样。 “有人问我,AI什么时候能取代你当OpenAI的CEO?我说,可能用不了多久,”他轻松地说,“我一点也不难过,我觉得这太棒了。我肯定能找到别的事情做。” 但真正的问题是,当大量工作被自动化后,人们如何维持生计? 奥特曼提出了两种可能性: 普惠式赋能:像GPT-7这样的强大工具免费提供给所有人,极大地提升每个人的生产力,让每个人都能创造更多价值。 新的经济模式:如果大部分财富都流向了AI的所有者(比如OpenAI自己),那么社会将迅速要求建立新的分配机制。 他过去很推崇“全民基本收入”(UBI),但现在他有了更深的想法。他认为,人们需要的不仅仅是钱,更是能动性(agency)——一种参与和共同塑造未来的感觉。 “我不想要每月一张支票。我想要的是AI所创造价值的所有权份额,让我感觉自己参与其中。” 他提出了一个更激进的概念——“全民基本财富”(Universal Basic Wealth)。比如,将全球AI算力的一部分(他半开玩笑地用了“万亿级别的tokens”作比喻)平均分配给地球上的每一个人。每个人都拥有了这份“算力资产”,可以自己使用、出售或与他人合作,共同创造新的事业。 这引出了一个终极问题:如果AI能做所有事,人类的**人生意义(Purpose)**何在? 奥特曼承认这是他经常思考的问题,但他保持乐观。他用历史类比:工业革命时,人们也曾恐慌工作会消失,但我们很快就创造出了新的需求和新的工作。从前为了生存而辛勤劳作的祖先,看待我们今天坐着聊天、做播客,会觉得这是“真正的工作”吗?或许不会。同样,一百年后的人们回顾我们,可能也会觉得我们的工作不值一提。 “但这正是人类进步的美妙之处,”他说,“每一代人都站在前人的肩膀上,生活变得越来越好,我们不断找到新的、更高层次的方式来服务彼此,寻找意义。” 直面恐惧:一个连奥特曼都感到“无用”的时刻 尽管乐观,奥特曼也毫不掩饰自己的恐惧。 “就在今天早上,我测试我们的新模型(GPT-5),我把一个我不太理解的复杂问题扔给它,它完美地解答了。”他靠在椅子上,那一刻他真实地感到了一种“哦,天哪,它来了”的冲击。 “在那一刻,我觉得自己相对于AI是无用的。那是一种很奇怪的感觉。” 他同样担心AI对用户心理健康的影响。人们已经开始把ChatGPT当作治疗师、生活教练,甚至AI伴侣。“我害怕这个,我还没有答案。” 另一个巨大的担忧是隐私和监控。随着AI变得越来越强大,政府可能会以安全为由,要求更多的监控。“我非常害怕这个,”他说,“我们必须捍卫隐私权。历史告诉我们,政府在这方面总是会走得太远。” AI竞赛的真相与未来图景 如今,科技巨头们都在进行一场激烈的AI竞赛,宛如新时代的F1方程式赛车。这场竞赛的终点是什么?奥特曼认为,大家并没有一个统一的目标。 早期的竞赛是关于“基准测试跑分”,就像过去电脑的“兆赫兹竞赛”。但现在,重点正在转向谁能真正为用户创造价值。至于终极目标,也许是能自我迭代的超级智能,也许是比全人类加起来还聪明的AI。奥特曼自己的里程碑是:“当我们宁愿把算力交给一个AI研究员,而不是我们最聪明的人类研究团队时,那将是一个完全不同的新时代。” 为了支撑这个未来,我们需要巨大的物理基础设施——数据中心。他描述了在德州阿比林市正在建设的一个1千兆瓦的数据中心,其规模之大,从空中看就像一块电脑主板。“我猜想,未来地球的很多地方都会被数据中心覆盖,或者,我们会把它们建到太空里去。” 而这一切都需要巨大的能源。奥特曼的答案是:核聚变。“我认为我们需要尽快实现核聚变。未来几十年,人类对智能和能源的需求将疯狂增长,我们最好找到解决方法。” 在对话的最后,奥特曼再次回到了那个核心的不确定性上。他坦言,他没有所有答案,也没有人有。 “我小时候总以为,这个世界上总有一些‘房间里的大人’,他们有全盘计划,知道一切会如何发展。后来我长大了,开始怀疑,可能根本没有‘大人’。现在,我自己成了那个‘房间里的大人’,我可以肯定地告诉你,没人知道未来会怎样。” 这或许就是与山姆·奥特曼交谈最让人感觉奇特的地方。他就像一个手握宇宙地图的向导,当你问他目的地是什么样时,他会坦诚地告诉你:“我也不完全清楚,但我们正在一步步探索,让我们一起去看看吧。” 这种坦诚,这种对未知的好奇与敬畏,或许比任何确定的答案都更能让我们理解我们所处的这个时代——一个充满无限可能,既令人兴奋又让人不安的伟大开端。

July 24, 2025 · 1 min · fisherdaddy

AI 市场格局生变:2025 年调查揭示 Gemini、DeepSeek 崛起,企业 AI 应用加速

本文是 Artificial Analysis 发布的《2025 年上半年 AI 采纳度调查报告》的亮点摘要。该调查收集了超过 1000 名 AI 用户的反馈,旨在揭示 AI 采纳和使用的最新趋势。 主要观点 根据 2025 年上半年的调查数据,AI 技术的采纳正从实验阶段迈向实际生产应用,呈现出快速成熟的趋势。企业在 AI 应用上日益多元化,平均考虑或使用的语言模型数量显著增加。在模型选择上,Google Gemini、xAI Grok 和开源模型 DeepSeek 的市场关注度大幅提升,改变了原有的市场格局。企业对 AI 的部署策略各不相同,呈现出自主构建、直接购买或混合模式并存的局面。此外,调查显示,如果数据托管在中国境外,多数组织对采用中国 AI 模型持开放态度。 关键细节 AI 采纳与应用场景 采纳成熟度:AI 正在从原型阶段走向规模化应用,已有 45% 的组织在生产环境中使用 AI。 构建 vs. 购买策略:在 AI 应用的获取方式上,32% 的组织选择自主构建,27% 选择直接购买成品,25% 采用混合策略。 核心应用领域:工程与研发(Engineering & R&D)是 AI 应用的首选领域,被 66% 的组织采纳。其次是客户支持(Customer Support)和市场营销(Sales & Marketing)。 主要挑战:超过 50% 的组织认为,模型智能水平(Intelligence)、可靠性(reliability)和成本(costs)是使用 AI 时面临的最大挑战。 热门应用工具: AI 聊天应用:ChatGPT 依然最受欢迎,Gemini 和 Claude 紧随其后。 AI 编程工具:GitHub Copilot 和 Cursor 在市场上占据绝对主导地位。 语言模型 (LLM) 模型偏好:Google Gemini 和 OpenAI GPT/o 系列模型是开发者的首选,约 80% 的受访者正在使用或考虑使用。DeepSeek 成为最受欢迎的开源权重模型。 市场份额变化:与 2024 年相比,Google Gemini (+49%)、DeepSeek (+53%) 和 xAI Grok (+31%) 的市场关注度显著增长,而 Meta Llama (-6%) 和 Mistral (-15%) 有所下滑。 模型多样化趋势:企业考虑或使用的 LLM 家族平均数量从 2024 年的 2....

July 23, 2025 · 1 min · fisherdaddy

大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2:现代大型语言模型架构设计 • Sebastian Raschka

本文深入分析了 2025 年主流开源大语言模型(LLM)的架构演进。作者指出,尽管这些新模型在宏观结构上与七年前的 GPT 架构相似,但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计,而非关注基准测试性能或训练算法。 主要观点 文章的核心观点是,当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革,但通过对现有 Transformer 基础的精细打磨,研究者们实现了显著的性能与效率平衡。 混合专家模型(MoE)成为主流:为了在不显著增加推理成本的前提下大幅提升模型参数量(即模型容量),DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。 注意力机制持续创新:为降低推理过程中的内存占用和计算量,各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准,DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存(KV cache),而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。 归一化策略的精细调整:为了提升训练过程的稳定性,模型开发者对归一化层(Normalization Layer)的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局,并引入 QK-Norm,Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。 对位置编码的实验性探索:部分模型开始挑战传统的位置编码方案。例如,SmolLM3 实验性地采用了 No Positional Embeddings (NoPE),旨在改善模型对不同序列长度的泛化能力。 关键细节 以下是支持上述观点的具体模型架构细节: DeepSeek V3 / R1 Multi-Head Latent Attention (MLA):通过在存入 KV cache 前压缩键(key)和值(value)张量来节省内存,实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE):模型总参数量高达 6710 亿(671B),但推理时每个 token 仅激活 9 个专家(1 个共享专家 + 8 个路由选择的专家),活跃参数仅为 370 亿(37B)。共享专家的设计有助于学习通用模式,提升了模型性能。 Kimi 2...

July 23, 2025 · 4 min · fisherdaddy

扎克伯格摊牌了:百亿豪赌、个人超级智能与 AI 的终极形态

本文来自于 Meta CEO 马克·扎克伯格接受《The Information》杂志记者杰西卡·莱辛的采访视频,讨论了他对个人超级智能的愿景,以及这种愿景与当今世界对 AI 的理解有何不同。 采访还涵盖了扎克伯格部署资本的策略,以及他为何要将服务器安置在帐篷内。 扎克伯格摊牌了:我们的目标是“个人超级智能”,而且要不惜一切代价 最近,马克·扎克伯格似乎按下了AI军备竞赛的“狂暴”按钮。从疯狂招募顶尖AI人才、豪掷重金入股Scale AI,到宣布建造堪称巨无霸的超级计算机集群,Meta的一系列动作都在清晰地传递一个信号:他们要“All in” AI,而且是以前所未有的规模。 在与 The Information 的一次深度对话中,扎克伯格首次系统地阐述了Meta在这场AI终局之战中的独特愿景和激进打法。他不再满足于追赶,而是要定义一个全新的赛道——个人超级智能 (Personal Super Intelligence)。 不只是造工具,而是要给每个人一个“超强大脑” 当下的AI竞赛中,无论是OpenAI还是Google,大家似乎都更关注如何用AI解决“宏大问题”,比如自动化经济生产、赋能企业。但扎克伯格的思路显然不太一样。 他认为,AI就像早期的互联网,它的价值绝不限于生产力。人们生活中真正关心的,更多是人际关系、文化、创造力、娱乐和享受生活。这就是Meta想要聚焦的地方。 “我们的使命,是把个人超级智能带给世界上的每一个人,”扎克伯格说,“我们想把这种力量直接交到每个人的手中。” 这与竞争对手们想打造一个“中央超级智能”来解决宏大问题的思路形成了鲜明对比。扎克伯格描绘的未来是: AI是你的个人伙伴:它关心你生活中的琐事,而不仅仅是宏大的社会议题。 AI提升你的个人生活:它帮你维系人际关系,激发你的创造力,让生活更有趣。 AI增强你的认知能力:未来,不戴AI眼镜,可能就像近视眼不戴眼镜一样,处于一种“认知劣势”。 他举了一个生动的例子:我们每次和别人聊天,脑子里可能会闪过五件想后续跟进的事,但最后因为忙碌,能做一件就不错了。而在未来,你的AI眼镜会帮你记住这一切,甚至主动帮你跟进处理。 这种“个人化”的愿景,可以说是Meta这家以社交和连接起家的公司,在基因里就写好的。 弹药充足:用“钞能力”和极致算力吸引顶尖人才 要实现如此宏大的愿景,需要两样东西:顶级的人才和海量的算力。扎克伯格对此毫不含糊。 1. 人才争夺战:钱很重要,但不是全部 面对外界报道的数百万甚至上亿美元的“天价”薪酬包,扎克伯格虽然承认市场竞争激烈,但他透露了顶尖研究员们更看重的东西。 他说,现在招募这些顶级人才,他们想要的不再是管理多少人的“大团队”,而是恰恰相反——“最少的人,最多的GPU”。 这些天才希望在一个小而精悍的团队里,每个人都能将整个项目装进自己的脑袋,同时拥有几乎无限的计算资源来验证自己的疯狂想法。而这,正是Meta能够提供的核心吸引力。 “如果你要投入几千亿美元来构建计算集群,那么花点钱、不惜一切代价去争取那五六十个最顶尖的研究员,是完全说得通的。” 扎克伯格的逻辑很清晰:与庞大的硬件投入相比,人才招聘的成本反而是“小钱”。 2. 算力军备:不设上限的投入 当被问及资本支出(Capex)是否有上限时,扎克伯格的回答简单而霸气:“我们会看技术进展和结果再说。” 他认为,将资本转化为更优质的服务,是一种核心的竞争优势。Meta强大的业务模式能持续产生巨额现金流,这让他们有底气进行这种“可能长达数年,耗资数千亿”的投入,而许多竞争对手则需要为此不断融资。 为了在这场竞赛中跑得更快,Meta甚至颠覆了传统数据中心的建设方式。他们开创性地使用**“防飓风帐篷”**来快速搭建GPU集群,而不是等待耗时数年的钢筋混凝土建筑完工。 目前,Meta正在建设两个以希腊泰坦神命名的“泰坦”级数据中心——普罗米修斯(Prometheus)和许珀里翁(Hyperion)。其中,许珀里翁最终将扩展到惊人的5千兆瓦(5 GW),其占地面积甚至堪比一大部分曼哈顿。 扎克伯格的目标很明确:打造全球最庞大的计算集群,并实现“人均算力”的遥遥领先。 AI的终极形态:透过你的眼睛看世界 那么,这个“个人超级智能”最终会以什么形态出现呢?扎克伯格的答案,与他多年前就下注的另一项技术紧密相连——智能眼镜。 他坚信,智能眼镜是AI的最佳载体,因为: 它能看到你所见,听到你所闻,真正理解你所处的环境和上下文。 它能与你全天候对话,成为一个无缝的交互入口。 未来,它能直接在你眼前生成全息影像和交互界面,提供即时信息和帮助。 这让Meta在Reality Labs上的长期巨额投资,与当下的AI战略完美地串联起来,形成了一个从硬件到软件再到服务的闭环。 一场严肃的豪赌 在采访后的讨论中,记者Jessica Lessin敏锐地捕捉到了扎克伯格的变化。他当天穿着一件有领子的衬衫,虽然看似随意,但在熟悉他的人看来,这是一种“严肃”的信号——就像他曾在Facebook面临严峻挑战时,坚持每天打领带上班一样。 这次,扎克伯格是认真的。他不再是被动应对,而是主动出击,试图为Meta,也为整个科技行业,划定下一代计算平台的战场。 当然,一个巨大的问题仍然悬而未决:当“个人超级智能”真的实现时,它的商业模式是什么?如何为这项耗资千亿的服务买单? 这或许是这场“AI热夏”中最激动人心,也最充满未知的问题。但可以肯定的是,扎克伯格已经摆好棋局,押上重注。这不仅关乎Meta的未来,也可能从根本上改变我们每个人与技术互动的方式。我们都在拭目以待。

July 23, 2025 · 1 min · fisherdaddy

前谷歌 CEO 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好

本文来自于是谷歌前首席执行官、Relativity Space 执行主席兼首席执行官 埃里克·施密特在 2025 年巴黎 RAISE 峰会上的炉边谈话。访谈中施密特谈论的内容从 AGI 的时间表到硅谷地缘政治,从递归自我改进到万亿美元的资本支出竞赛等。 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好 当埃里克·施密特(Eric Schmidt)——这位前谷歌CEO,科技界的重量级人物——登台时,他带来的不是又一个关于AI如何提升效率的商业演讲。他带来的是一个更宏大、也更令人不安的宣告:我们正站在一个全新纪元的门槛上,其深刻程度堪比“启蒙运动”,而绝大多数人,尤其是各国领导者,对此毫无准备。 这个观点并非一时兴起。施密特与已故的外交巨擘亨利·基辛格(Henry Kissinger)合著了《AI世纪》(The Age of AI)一书,书中早已埋下伏笔。基辛格曾将我们现在所经历的,与人类从信仰神明转向运用理性的“启蒙运动”相提并论。而现在,我们迎来的,是一种全新的、非人类的智能。 施密特认为,人们对AI最大的误解,就是还停留在两年前ChatGPT刚问世时的印象里。他直言不讳地对各国政府说:“第一,这玩意儿已经不是那个ChatGPT了,一切都变了。第二,你们根本没准备好。第三,你们最好赶紧围绕它组织起来,无论是好的方面,还是坏的方面。” “旧金山共识”:三年内,世界将天翻地覆 施密特最近提出了一个新词——“旧金山共识”(The San Francisco Consensus)。这听起来像个圈内黑话,但背后却是硅谷核心圈子里一群人的共同信念。 这个共识的核心观点是:在未来两到四年内(平均说法是三年),整个世界将被彻底改变。 听起来有点夸张?让我们看看这个论证是如何展开的: 第一步:智能体革命(The Agentic Revolution) 我们已经有了大型语言模型(LLM),比如ChatGPT。但真正的变革在于,当这些模型被赋予记忆和推理能力时,它们就变成了“智能体”(Agents)。 施密特用一个生动的例子解释了这一点:假设你想在加州建一栋新房子。你可以部署一系列智能体: 智能体A:负责寻找合适的地皮。 智能体B:研究当地所有的建筑法规。 智能体C:设计建筑蓝图。 智能体D:挑选并雇佣承包商。 (施密特开玩笑说)智能体E:如果房子建砸了,负责起诉承包商。 这个看似简单的流程,其实可以套用到任何商业、政府乃至个人活动中。这就是“智能体革命”,它将重塑我们作为人类的工作方式。 第二步:推理革命(The Reasoning Revolution) 这才是更令人震撼的部分。最新的AI模型(如GPT-4o)已经展示出惊人的推理能力,你甚至可以看它在解决一个复杂问题时来回思考、自我纠正。谷歌的一个数学模型,其解题能力已经达到了数学专业研究生的前10%水平。 可以毫不夸张地说,我们现在的AI系统,在许多高等学科(数学、物理等)上的能力,已经能媲美90%的人类顶尖学者。 从 AGI 到超级智能:我们离“魔法”还有多远? 当“智能体革命”和“推理革命”结合,并引入一个关键概念——递归式自我完善(Recursive Self-Improvement)时,一切就变得不可预测了。 这指的是系统开始自我学习、自我改进,其进步速度会以一种我们人类无法理解的组合方式爆炸式增长。 这引出了两个关键的未来阶段: 通用人工智能 (AGI):这是指AI拥有了像人一样的“自由意志”和通用智能。它早上“醒来”,可以自己决定去学什么、探索什么。施密特个人预测,这将在未来四到六年内实现。 超级智能 (Superintelligence):这是指AI的智能超越了所有人类智慧的总和。如何判断我们是否达到了这个阶段?施密特给出了一个绝妙的测试标准:当AI能够证明一个我们已知为真、但任何人类(哪怕是全人类加起来)都无法理解其证明过程的命题时,超级智能就到来了。 基辛格曾问过一个深刻的问题:那是什么?是魔法吗?当人们亲眼目睹这种自己无法理解的力量时,很可能会因为恐惧而拿起武器反对它。施密特认为,这一天在十年内就可能到来。 这也带来了严峻的国家安全问题。想象一下,如果一个国家拥有了一百万个不知疲倦、不吃不喝、24小时工作的AI研究员,它的创新速度将呈指数级增长。这会让它的对手感到,一旦落后,就再也无法追赶,从而可能引发先发制人的冲突。 算力即战略:一场全球性的 AI 权力游戏 要实现这一切,背后需要的是天文数字般的算力投入和资本支出(Capex)。很多人觉得这像一场泡沫,行业高管们嘴上也说着“我们在过度建设”,但私下里都认为“倒霉的会是别人,我的投资没问题”。 施密特认为这可能不是泡沫。他引用了一句硅谷的老话:“格鲁夫给予的,盖茨会带走。”(Grove giveth and Gates taketh away),意思是硬件(英特尔的安迪·格鲁夫)性能的提升,总会被软件(微软的比尔·盖茨)无尽的新功能所消耗掉。历史上,硬件的容量从未被浪费过。 这场算力竞赛,也正在重塑全球的AI权力格局。 美国模式:资本雄厚,公司倾向于建立庞大的数据中心,提供功能强大的闭源服务。 中国模式:恰恰相反,在Deepseek等项目的引领下,中国正大力发展开源、开放权重的模型,背后很可能有政府资金的支持。 这会带来一个非常有趣的局面:未来,西方国家可能拥有最先进的AI模型,但世界上大多数国家和用户使用的,却可能是来自中国的开源模型。这其中蕴含的地缘政治风险,我们才刚刚开始思考。 唯一会让你失败的,是行动太慢 回顾过去,施密特坦言,他在谷歌领导安卓系统应对移动互联网浪潮时,犯下的每一个错误,归根结底都是时间的错误。...

July 23, 2025 · 1 min · fisherdaddy

OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy