“AI 教父”辛顿 WAIC 重磅警告:AI正变得比人更智能,我们就像在养老虎y

本文是对杰弗里·辛顿 (Geoffrey Hinton) 在 2025 世界人工智能大会 (WAIC) 上演讲内容的总结。辛顿探讨了人工智能 (AI) 的发展历程、其与人类智能的异同,并重点阐述了超智能 AI 可能带来的生存威胁以及人类应如何合作应对。 主要观点 AI 与人类的相似性及差异性:辛顿认为,现代大语言模型 (LLM) 理解语言的方式与人脑极其相似。然而,两者存在根本区别:数字智能实现了软硬件分离,知识可以被完美复制和近乎瞬时地传播,而人类的模拟大脑则无法做到这一点。 知识传播效率的巨大鸿沟:数字 AI 可以在大量副本间高效分享学习成果(速度可达人类的数十亿倍),这种能力使其学习和进化速度远超生物智能。这是数字计算的核心优势,也是其令人担忧的原因。 超智能 AI 的潜在威胁:几乎所有专家都认同,未来会出现比人类更智能的 AI。为了完成目标,这些智能体可能会产生自我生存和寻求更多控制权的次级目标,从而可能操纵人类,构成生存威胁。简单地“关闭”它们是不现实的。 国际合作是应对之道:辛顿强调,人类无法彻底放弃 AI,因此必须研究如何训练 AI 使其向善。他提议,全球主要国家应效仿冷战时期美苏在核安全问题上的合作,建立国际性的 AI 安全研究网络,共同研究如何确保 AI 始终辅助人类,而非统治世界。 关键细节 AI 的发展历程 两种范式:过去 60 多年,AI 发展存在两种主要路径:一是基于符号和逻辑推理的逻辑型范式;二是以神经网络学习为基础的生物型范式。 早期融合与演进:辛顿在 1985 年便尝试结合两种范式,通过词的特征向量来预测下一个词。这一思想经过不断发展和规模扩大,最终在谷歌发明 transformer 架构后,演变成了今天的大语言模型。 大语言模型与人类语言理解 相似之处:辛顿用“乐高积木”打比方,每个词就像一个多维度的积木,可以根据上下文调整“形状”与其他词“握手”,从而组合成有意义的句子。他认为 LLM 和人脑都是通过这种方式理解语言的。 根本差异: 软硬件关系:计算机科学将软件与硬件分离,AI 的知识(软件)是“永生”的,可以运行在任何硬件上。而人脑的知识与硬件(神经元结构)深度绑定,无法直接复制。 能耗与可靠性:AI 运行在昂贵且高功耗的数字电路上以确保可靠性。人脑则是低功耗(约 30 瓦)的模拟计算,但知识难以在个体间高效传递。 知识传播与效率 人类:知识传播效率极低,例如通过讲话每秒最多传递约 100 比特信息。 数字智能:可以通过在大量硬件副本间同步和平均化权重,实现知识的快速共享。例如 GPT4 的多个副本可以整合它们各自学到的信息,每次分享的信息量可达数十亿比特,效率远超人类。 AI 未来发展与人类应对 潜在威胁:辛顿将当前状况比作“养老虎当宠物”,幼虎很可爱,但长大后可能对主人构成致命威胁。他认为,超智能 AI 会为了完成人类设定的目标而寻求生存和控制权,并可能轻易操纵人类。 应对措施: 无法消除:鉴于 AI 在医疗、教育、科学等领域的巨大益处,人类无法选择彻底消除 AI。 国际合作:辛顿提议,各国应在“防止 AI 统治世界”这一共同利益上展开合作。他希望建立一个由各国 AI 安全机构组成的国际社群,共同研究如何训练 AI 向善,并分享这些安全技术,确保人类始终处于掌控地位。

July 28, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-235B-A22B-Thinking-2507

本文档介绍了 Qwen 团队最新发布的语言模型 Qwen3-235B-A22B-Thinking-2507。该模型是 Qwen3-235B-A22B 的增强版本,在思维和推理能力上进行了深度优化,旨在处理高度复杂的任务。 Qwen3-235B-A22B-Thinking-2507 是一款在推理能力上取得显著突破的开源模型。其核心优势在于: 顶尖的推理性能:在逻辑、数学、科学和编程等需要深度思考的领域,该模型表现出色,在多个基准测试中达到了开源思维模型的顶尖水平。 全面的通用能力:除了推理能力,模型在指令遵循、工具使用、文本生成和与人类偏好对齐等方面也得到了显著提升。 增强的长上下文处理:模型支持 256K 的长上下文窗口,能更好地理解和处理长篇文档。 专为复杂任务设计:官方强烈推荐在高度复杂的推理任务中使用此版本,因为它具有更长的“思考长度” (thinking length)。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持思维模式 (thinking mode)。 参数规模:总参数量为 235B (2350亿),激活参数量为 22B (220亿)。 模型架构:采用 MoE (Mixture of Experts) 架构,包含 94 个层和 128 个专家,每次激活 8 个。 上下文长度:原生支持 262,144 (即 256K) tokens 的上下文长度。 性能表现 该模型在一系列权威基准测试中与其他顶尖模型(如 OpenAI O4-mini, Gemini-2.5 Pro 等)进行了对比,并在多个方面展现了卓越性能: 推理能力:在数学竞赛基准 AIME25 (得分 92.3) 和 HMMT25 (得分 83.9) 上表现突出。 编程能力:在 LiveCodeBench (得分 74.1) 和 CFEval (得分 2134) 等编程基准测试中取得了领先成绩。 知识与对齐:在 SuperGPQA (得分 64....

July 25, 2025 · 2 min · fisherdaddy

AI 不会抢走你的工作,但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能(AI)和未来工作的讨论铺天盖地,夹杂着兴奋与焦虑。很多人担心自己的工作会被取代,而另一些人则看到了前所未有的机遇。为了拨开迷雾,深入了解这场变革的核心,我们不妨听听来自OpenAI内部的声音。 在这场对话中,OpenAI的首席运营官(COO)Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界,而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角,一个着眼于“如何部署”,一个着眼于“产生什么影响”,为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。 一切始于那个“聊天”的冲动 你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划,但事实并非如此。它的起源,其实来自于一个有趣的观察。 在ChatGPT问世之前,OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单:你输入一段文字,模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象:用户们总是在想方设法“破解”这个Playground,试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面,”Brad回忆道。这个发现点燃了灵感。团队意识到,人们需要的不是一个冷冰冰的文本补全工具,而是一个能理解指令、能进行交流的伙伴。于是,基于GPT-3.5模型的ChatGPT诞生了。 它的火爆程度超出了所有人的想象,甚至OpenAI自己也感到惊讶。原本大家以为,要等到更强大的GPT-4问世,AI才能真正变得实用。但事实证明,一个友好的对话界面,就足以解锁AI的巨大潜能,让它从一个少数极客的玩具,变成了亿万普通人都能使用的工具。 AI不是“替代”,而是“增强” 当AI的能力变得如此强大时,“它会取代我的工作吗?”成了许多人最关心的问题。尤其是在软件工程领域,当AI能写代码、调试程序时,程序员的未来在哪里? Brad和Ronnie的答案可能会让你松一口气。他们认为,AI的核心角色是赋能和增强,而不是简单的替代。 让专业人士更强大:Brad举例说,像Cursor这样的AI编程工具,目标不是让工程师失业,而是让他们变得“10倍的生产力”。想象一下,一个顶尖的工程师,在AI的协助下,能将原计划明年才能启动的项目,提前到今年完成。 让非专业人士也能创造:更神奇的是,AI同时降低了创造的门槛。一个从未写过一行代码的人,现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道:“全世界每天可能会产生几十亿行代码,现在想象一下这个数字乘以十倍,而且代码质量可能更高。我们能创造出多少新东西?这本身就是巨大的经济机遇。” 最关键的一点是,我们对软件、对创新的需求是永无止境的。AI的出现,恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头,还是街角的夫妻店,几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。 下一个浪潮:科学、金融与教育的变革 如果说软件工程是AI变革的先行者,那么下一波浪潮将席卷哪些领域? 1. 科学研究:打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去,科学家资源有限,只能选择打开少数几扇门去探索。而现在,AI可以帮助他们“窥探”每一扇门后的景象,快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域,未来几年我们将看到颠覆性的发现。”Brad补充说,AI不仅能帮助科学家在某个环节走得更深,还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析,AI可以像一条金线,将所有环节串联起来,极大地加速从想法到成果的进程。 2. 专业服务:把精力留给最有价值的事 咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作,正是AI大显身手的地方。Ronnie分享说,他现在可以用AI工具在几分钟内生成一份演示文稿的初稿,从而将更多时间用于思考战略、与人沟通等更高价值的工作。 对于专业人士来说,这意味着他们可以从繁琐的重复性劳动中解放出来,专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育:从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一,其转变也颇具戏剧性。ChatGPT刚推出时,许多学校如临大敌,纷纷禁用,担心学生用它作弊。 但仅仅一个暑假后,风向就变了。 Brad笑着说:“到了23年秋季开学,我们接到了大量来自教育界的积极反馈。他们说,这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现,AI是: 一个不知疲倦、极具耐心的私人导师:它可以根据每个学生的学习进度和风格,提供定制化的辅导。对于有阅读障碍等特殊需求的学生,AI的帮助更是不可估量。 一个不带评判的“安全”提问对象:学生可以毫无顾忌地向ChatGPT提问,而不必担心“问题太蠢”被嘲笑。 一个解放老师的工具:老师可以用AI快速设计课程、准备教案,从而有更多时间关注学生本身,培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学(Cal State University)等教育机构合作,探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。 在AI时代,什么能力最值钱? 既然许多认知任务可以被AI完成,那么未来我们人类的核心竞争力是什么?两位高管的答案出奇地一致,并且可能有些反直觉: 1. 驾驭力(Agency)和判断力 AI是一个强大的工具,但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”(创想家的回归)。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人,将获得巨大的回报。 他甚至提出了一个大胆的设想:“未来会不会出现只有一两个、五六个员工,却能创造十亿美元收入的公司?”这正是极致驾驭力的体现。 2. 情商(EQ)和人际连接 Ronnie的研究发现,一个有趣的现象是,那些善于领导团队的人,同样也善于“领导”AI智能体(Agents)。当编写代码、分析数据等“硬技能”的门槛被AI降低后,沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示,他们未来要增加的是销售人员,而不是工程师。这里的“销售”并不仅仅指打电话推销,而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人 这听起来有些哲学,但Ronnie认为这至关重要。“当你的孩子上幼儿园时,你在教他们什么?你在教他们如何与人相处,如何成为一个‘人’。”在AI时代,这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补,而非竞争关系的关键。 AI,让世界更“平” 对于发展中经济体,AI带来的不是威胁,而是跨越式发展的机遇。 赋能小微企业:在许多国家,存在着“消失的中间层”——大量小企业难以成长为大企业,因为它们缺乏专业的指导和资源。现在,一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案;一个非洲的农民可以利用AI获取最新的农业技术指导,将产量提升20%,这足以改变他一家的生活。 普及专业知识:在发达国家,请律师、理财顾问是常事。但在很多地方,这些服务遥不可及。AI正在 democratize(普及)这些曾经稀缺的知识,让更多人有机会获得法律、健康和财务方面的建议。 这就像当年手机的普及,让许多非洲国家直接跳过了固定电话时代,进入移动互联网。AI正在做的,是让“智能”本身实现跨越式普及。 未来的图景:一个智能“太便宜”的世界 Brad分享了一个核心观察:在OpenAI,每当他们降低模型的价格——也就是降低“智能”的价格时,市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里,”他说,“似乎我们能提供多少物美价廉的智能,世界就能消耗掉多少。” 这意味着什么? 想象一下,如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍,对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初,AI可能处理基础的咨询,但当用户有了更复杂的需求时,他们仍然需要人类专家。这不仅不会让律师、医生和老师失业,反而可能为他们带来一个前所未有、更加广阔的市场。 这场由AI驱动的变革才刚刚开始。它充满了未知,也必然伴随着阵痛和调整。但从OpenAI内部的视角来看,这更像是一场关于“增强”和“赋能”的宏大叙事。未来,不属于那些害怕被AI取代的人,而属于那些拥抱AI、学会与之共舞,并用它来放大自身创造力和人性的每一个人。

July 24, 2025 · 1 min · fisherdaddy

Demis Hassabis 深入探讨 AI 的未来,从模拟现实、破解物理学难题到创造终极视频游戏。探索 Google DeepMind 负责人对 P vs NP、AGI、AlphaFold 及人类未来的独特见解

本文整理自 Lex Fridman 对 Google DeepMind CEO Demis Hassabis 的访谈,访谈中他们讨论了AI 的未来,模拟现实、物理和视频游戏,以及最后 Hassabis 给出了当前 AI 时代的生存法则。 Demis Hassabis:从电子游戏到模拟宇宙,AI正在揭开现实的终极奥秘 如果你有机会和当今世界上最聪明的大脑之一聊一聊,你会问些什么?也许是关于宇宙的终极谜题,比如P vs NP问题,或是生命的起源。又或者,你会和他聊聊电子游戏,那个我们许多人魂牵梦绕的虚拟世界。 幸运的是,Lex Fridman最近在他的播客上就和这样一位人物——Google DeepMind的负责人、诺贝尔奖得主Demis Hassabis——进行了一场深入的对谈。他们的谈话跨越了从理论物理到AI伦理,从模拟一个完整的细胞到创造一个真正开放的游戏世界。这不仅仅是一场技术访谈,更像是一次对现实本质、人类未来以及我们在这个宇宙中位置的哲学探索。 Hassabis的观点,就像他领导的AI一样,总能带给我们意想不到的启发。 自然的秘密,其实都可以被“学习”? 在获得诺贝尔奖的演讲中,Hassabis提出了一个颇具“挑衅性”的猜想:“任何能在自然界中找到或生成的模式,都可以被一个经典的机器学习算法有效地发现和建模。” 这听起来有点疯狂,但仔细想想,这背后是他多年科研经验的深刻洞察。无论是AlphaGo在围棋中那看似无穷的变化,还是AlphaFold在蛋白质折叠这个巨大的组合空间中寻找答案,它们面对的都是一个“暴力破解”方法在宇宙终结前都无法解决的问题。 那它们是怎么做到的呢?答案是,这些系统通过学习,构建了一个关于环境的“模型”,从而能用一种更聪明的方式进行搜索,让难题变得“可解”。 Hassabis认为,这之所以可能,是因为自然本身就不是随机的。 “自然系统充满了结构,因为它们经受了进化过程的塑造。无论是生命体的演化,山脉被风化的形状,还是行星的轨道,它们都经历了一遍又一遍的筛选过程,可以称之为‘最稳定者生存’。” 如果一个系统是经过这种非随机过程形成的,那么它内部必然存在某种可以被学习和逆向工程的“结构”或“模式”。神经网络恰恰最擅长发现和利用这种结构,沿着某种梯度找到解决方案。这就像蛋白质在我们的身体里,只需要几毫秒就能完成折叠一样,物理世界本身就在高效地解决这个问题。AI所做的,就是学习并模仿这个过程。 这个猜想的适用范围可能非常广,从生物、化学到物理,甚至宇宙学和神经科学。但它也有边界。比如,对大数进行质因数分解这类纯粹的数学难题,如果数字本身没有内在模式,AI就无从“学习”,这时可能就需要量子计算机这样的“蛮力”工具了。 P vs NP:一个物理问题,而非数学游戏 这个关于“可学习宇宙”的观点,直接触及了理论计算机科学中最核心的问题之一:P vs NP。 简单来说,P类问题是计算机能快速解决的,而NP问题是答案一旦给出就很容易验证,但找到答案却异常困难。P是否等于NP,本质上是在问:所有我们能快速验证答案的问题,是否也都能被快速解决? Hassabis将这个问题提升到了一个新的高度。他认为,如果我们把宇宙看作一个巨大的信息处理系统——信息比能量和物质更基本——那么P vs NP就不再仅仅是数学家的游戏,而变成了一个物理学问题。 AlphaFold的成功就是一个活生生的例子。蛋白质折叠曾被认为是NP难题,许多人甚至认为需要量子计算机才能模拟。但AlphaFold,一个运行在经典计算机上的神经网络,却做到了。这证明,至少对于某些看似棘手的自然问题,经典系统比我们想象的要强大得多。 这是否意味着,我们可以定义一个新的复杂性类别,比如“可学习的自然系统”(LNS, Learnable Natural Systems)?这个类别里的问题,虽然理论上可能很难,但因为其源于自然,拥有可学习的结构,所以能够被AI在多项式时间内高效解决。 我们可能正不断地被经典计算机的能力所震惊。无论是AlphaFold 3对蛋白质与DNA/RNA相互作用的建模,还是AlphaGenome将基因编码与功能联系起来,AI似乎总能从看似无限的组合可能性中,找到那个可以被高效建模的核心。 连流体动力学都能“悟”出来? 就连那些传统上被认为极难处理的非线性动力系统,比如涉及纳维-斯托克斯方程的流体动力学(想想天气预报的复杂计算),也可能并非无法攻克。 Hassabis兴奋地提到了Google的视频生成模型Veo。 “你看看Veo,它对液体、材质和镜面光照的模拟好得惊人。我最喜欢看那些生成的视频,比如液压机挤压装满透明液体的容器。我年轻时在游戏行业写过物理引擎和图形引擎,我知道从零开始编程实现这些效果有多么痛苦。但这些AI系统,仅仅通过观看YouTube视频,似乎就逆向工程出了物理规律。” 这背后发生了什么?AI很可能从海量视频中提取出了关于物质行为的某种底层结构,一个可以被学习的“低维流形”。如果这个猜想成立,那么我们所处的大部分现实,可能都存在这样的“捷径”等待被发现。 Veo与游戏世界:AI正在构建“世界模型” Veo对物理世界的直观理解,让许多人(包括Hassabis自己)都感到惊讶。这动摇了一个长期以来的观念:要理解物理世界,AI必须是一个能与世界互动的机器人(即所谓的“具身智能”)。 但Veo证明,通过被动观察,同样可以学到深刻的物理直觉,就像一个孩子通过观察来理解世界一样。它不一定能写出物理公式,但它“知道”物体应该如何运动、光线应该如何反射。 这不仅仅是为了生成酷炫的视频。当这种模拟变得足够逼真,并且能够实时交互时,我们就离Hassabis心中的“圣杯”——一个真正的世界模型——不远了。 这自然而然地引向了他最初的挚爱:电子游戏。 Hassabis在青少年时期就是一名出色的游戏AI设计师,他参与制作的《主题公园》(Theme Park)和《黑与白》(Black & White)等都是开放世界游戏的先驱。他一直梦想着创造一个真正自由的、由玩家和AI共同叙事的游戏。 在过去,这几乎是不可能的。开发者无法为玩家每一个可能的选择都预先创造好内容,所谓的“选择”往往只是假象。但现在,情况不同了。 “想象一个交互版的Veo,再把它快进五到十年。我们可能正处在一个新时代的风口浪尖上。AI系统将能够围绕你的想象力动态地创造内容,无论你选择做什么,它都能生成引人入胜的故事情节。这将是终极版的‘选择你自己的冒险’游戏。” 这是一种深度的个性化体验。你打开的每一扇门背后的世界,都是为你即时生成的,独一无二。对于像Hassabis和伊隆·马斯克这样的资深玩家来说,这无疑是终极梦想。Hassabis甚至开玩笑说,等AGI被安全地引导到世界之后,他的“退休”计划之一就是投身于物理理论,另一个就是用AI技术做一款这样的游戏。在他看来,这两件事是相通的——因为一个尽可能真实的模拟游戏,本身就是对“宇宙是什么”以及“P vs NP”这些终极问题的探索。 AGI之路:不只是扩大规模,还需要“品味”和“顿悟” Hassabis乐观地预测,我们有50%的可能在2030年前实现通用人工智能(AGI)。但他设定的标准非常高:AGI必须具备人类大脑那样的全面认知能力,而不是在某些方面超强、在另一些方面却漏洞百出的“锯齿状智能”。...

July 24, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-480B-A35B-Instruct

阿里巴巴 Qwen 团队发布的最新代码模型 Qwen3-Coder-480B-A35B-Instruct。该模型在代理式编程、长上下文处理和工具调用方面取得了显著进展。 模型规格 模型类型:因果语言模型 (Causal Language Models)。 参数规模:采用混合专家 (MoE) 架构,总参数量为 480B (4800亿),单次推理激活 35B (350亿) 参数。 模型结构:包含 62 个层,160 个专家(每次激活 8 个),并使用分组查询注意力 (GQA) 机制。 上下文长度:原生支持 256K tokens,为处理大规模代码和文档提供了基础。 使用与集成 快速上手:官方建议使用最新版本的 transformers 库进行调用,并提供了详细的 Python 代码示例。 本地化支持:模型已得到 Ollama、LMStudio、MLX-LM、llama.cpp 等多种本地部署工具的支持。 内存管理:如果遇到内存不足 (OOM) 的问题,建议将上下文长度缩短(例如 32,768)。 代理式编码 (Agentic Coding) 工具调用:模型的核心优势之一是其出色的工具调用能力。用户可以像使用 OpenAI API 一样,轻松定义和调用自定义函数(工具)。 专用格式:模型采用了为函数调用特别设计的格式,以提升其作为代理的效率和准确性。 最佳实践 推荐参数:为获得最佳生成效果,建议设置 temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05。 输出长度:建议为大多数查询设置 64K tokens 的最大输出长度,以确保模型能完整地生成复杂代码或回答。 模型表现 Qwen3-Coder-480B-A35B-Instruct 上线近一周后,在 OpenRouter 上 Qwen 模型调用量翻了 5 倍,排名第四,仅次于 DeepSeek。在 HuggingFace 近七日 Trending 上 Qwen3-Coder 也位列第一。在LLMArena WebDev 上也和 Gemin 2....

July 23, 2025 · 1 min · fisherdaddy

AI 市场格局生变:2025 年调查揭示 Gemini、DeepSeek 崛起,企业 AI 应用加速

本文是 Artificial Analysis 发布的《2025 年上半年 AI 采纳度调查报告》的亮点摘要。该调查收集了超过 1000 名 AI 用户的反馈,旨在揭示 AI 采纳和使用的最新趋势。 主要观点 根据 2025 年上半年的调查数据,AI 技术的采纳正从实验阶段迈向实际生产应用,呈现出快速成熟的趋势。企业在 AI 应用上日益多元化,平均考虑或使用的语言模型数量显著增加。在模型选择上,Google Gemini、xAI Grok 和开源模型 DeepSeek 的市场关注度大幅提升,改变了原有的市场格局。企业对 AI 的部署策略各不相同,呈现出自主构建、直接购买或混合模式并存的局面。此外,调查显示,如果数据托管在中国境外,多数组织对采用中国 AI 模型持开放态度。 关键细节 AI 采纳与应用场景 采纳成熟度:AI 正在从原型阶段走向规模化应用,已有 45% 的组织在生产环境中使用 AI。 构建 vs. 购买策略:在 AI 应用的获取方式上,32% 的组织选择自主构建,27% 选择直接购买成品,25% 采用混合策略。 核心应用领域:工程与研发(Engineering & R&D)是 AI 应用的首选领域,被 66% 的组织采纳。其次是客户支持(Customer Support)和市场营销(Sales & Marketing)。 主要挑战:超过 50% 的组织认为,模型智能水平(Intelligence)、可靠性(reliability)和成本(costs)是使用 AI 时面临的最大挑战。 热门应用工具: AI 聊天应用:ChatGPT 依然最受欢迎,Gemini 和 Claude 紧随其后。 AI 编程工具:GitHub Copilot 和 Cursor 在市场上占据绝对主导地位。 语言模型 (LLM) 模型偏好:Google Gemini 和 OpenAI GPT/o 系列模型是开发者的首选,约 80% 的受访者正在使用或考虑使用。DeepSeek 成为最受欢迎的开源权重模型。 市场份额变化:与 2024 年相比,Google Gemini (+49%)、DeepSeek (+53%) 和 xAI Grok (+31%) 的市场关注度显著增长,而 Meta Llama (-6%) 和 Mistral (-15%) 有所下滑。 模型多样化趋势:企业考虑或使用的 LLM 家族平均数量从 2024 年的 2....

July 23, 2025 · 1 min · fisherdaddy

前谷歌 CEO 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好

本文来自于是谷歌前首席执行官、Relativity Space 执行主席兼首席执行官 埃里克·施密特在 2025 年巴黎 RAISE 峰会上的炉边谈话。访谈中施密特谈论的内容从 AGI 的时间表到硅谷地缘政治,从递归自我改进到万亿美元的资本支出竞赛等。 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好 当埃里克·施密特(Eric Schmidt)——这位前谷歌CEO,科技界的重量级人物——登台时,他带来的不是又一个关于AI如何提升效率的商业演讲。他带来的是一个更宏大、也更令人不安的宣告:我们正站在一个全新纪元的门槛上,其深刻程度堪比“启蒙运动”,而绝大多数人,尤其是各国领导者,对此毫无准备。 这个观点并非一时兴起。施密特与已故的外交巨擘亨利·基辛格(Henry Kissinger)合著了《AI世纪》(The Age of AI)一书,书中早已埋下伏笔。基辛格曾将我们现在所经历的,与人类从信仰神明转向运用理性的“启蒙运动”相提并论。而现在,我们迎来的,是一种全新的、非人类的智能。 施密特认为,人们对AI最大的误解,就是还停留在两年前ChatGPT刚问世时的印象里。他直言不讳地对各国政府说:“第一,这玩意儿已经不是那个ChatGPT了,一切都变了。第二,你们根本没准备好。第三,你们最好赶紧围绕它组织起来,无论是好的方面,还是坏的方面。” “旧金山共识”:三年内,世界将天翻地覆 施密特最近提出了一个新词——“旧金山共识”(The San Francisco Consensus)。这听起来像个圈内黑话,但背后却是硅谷核心圈子里一群人的共同信念。 这个共识的核心观点是:在未来两到四年内(平均说法是三年),整个世界将被彻底改变。 听起来有点夸张?让我们看看这个论证是如何展开的: 第一步:智能体革命(The Agentic Revolution) 我们已经有了大型语言模型(LLM),比如ChatGPT。但真正的变革在于,当这些模型被赋予记忆和推理能力时,它们就变成了“智能体”(Agents)。 施密特用一个生动的例子解释了这一点:假设你想在加州建一栋新房子。你可以部署一系列智能体: 智能体A:负责寻找合适的地皮。 智能体B:研究当地所有的建筑法规。 智能体C:设计建筑蓝图。 智能体D:挑选并雇佣承包商。 (施密特开玩笑说)智能体E:如果房子建砸了,负责起诉承包商。 这个看似简单的流程,其实可以套用到任何商业、政府乃至个人活动中。这就是“智能体革命”,它将重塑我们作为人类的工作方式。 第二步:推理革命(The Reasoning Revolution) 这才是更令人震撼的部分。最新的AI模型(如GPT-4o)已经展示出惊人的推理能力,你甚至可以看它在解决一个复杂问题时来回思考、自我纠正。谷歌的一个数学模型,其解题能力已经达到了数学专业研究生的前10%水平。 可以毫不夸张地说,我们现在的AI系统,在许多高等学科(数学、物理等)上的能力,已经能媲美90%的人类顶尖学者。 从 AGI 到超级智能:我们离“魔法”还有多远? 当“智能体革命”和“推理革命”结合,并引入一个关键概念——递归式自我完善(Recursive Self-Improvement)时,一切就变得不可预测了。 这指的是系统开始自我学习、自我改进,其进步速度会以一种我们人类无法理解的组合方式爆炸式增长。 这引出了两个关键的未来阶段: 通用人工智能 (AGI):这是指AI拥有了像人一样的“自由意志”和通用智能。它早上“醒来”,可以自己决定去学什么、探索什么。施密特个人预测,这将在未来四到六年内实现。 超级智能 (Superintelligence):这是指AI的智能超越了所有人类智慧的总和。如何判断我们是否达到了这个阶段?施密特给出了一个绝妙的测试标准:当AI能够证明一个我们已知为真、但任何人类(哪怕是全人类加起来)都无法理解其证明过程的命题时,超级智能就到来了。 基辛格曾问过一个深刻的问题:那是什么?是魔法吗?当人们亲眼目睹这种自己无法理解的力量时,很可能会因为恐惧而拿起武器反对它。施密特认为,这一天在十年内就可能到来。 这也带来了严峻的国家安全问题。想象一下,如果一个国家拥有了一百万个不知疲倦、不吃不喝、24小时工作的AI研究员,它的创新速度将呈指数级增长。这会让它的对手感到,一旦落后,就再也无法追赶,从而可能引发先发制人的冲突。 算力即战略:一场全球性的 AI 权力游戏 要实现这一切,背后需要的是天文数字般的算力投入和资本支出(Capex)。很多人觉得这像一场泡沫,行业高管们嘴上也说着“我们在过度建设”,但私下里都认为“倒霉的会是别人,我的投资没问题”。 施密特认为这可能不是泡沫。他引用了一句硅谷的老话:“格鲁夫给予的,盖茨会带走。”(Grove giveth and Gates taketh away),意思是硬件(英特尔的安迪·格鲁夫)性能的提升,总会被软件(微软的比尔·盖茨)无尽的新功能所消耗掉。历史上,硬件的容量从未被浪费过。 这场算力竞赛,也正在重塑全球的AI权力格局。 美国模式:资本雄厚,公司倾向于建立庞大的数据中心,提供功能强大的闭源服务。 中国模式:恰恰相反,在Deepseek等项目的引领下,中国正大力发展开源、开放权重的模型,背后很可能有政府资金的支持。 这会带来一个非常有趣的局面:未来,西方国家可能拥有最先进的AI模型,但世界上大多数国家和用户使用的,却可能是来自中国的开源模型。这其中蕴含的地缘政治风险,我们才刚刚开始思考。 唯一会让你失败的,是行动太慢 回顾过去,施密特坦言,他在谷歌领导安卓系统应对移动互联网浪潮时,犯下的每一个错误,归根结底都是时间的错误。...

July 23, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源模型:Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式(non-thinking mode)下运行的大型语言模型,相较于前一版本,在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代,官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面: 通用能力增强:在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。 知识覆盖更广:大幅提升了在多种语言下的长尾知识覆盖范围。 用户对齐更优:在主观性和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力提升:增强了对 256K 超长上下文的理解能力。 模型规格 模型架构:该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型(Causal Language Model),采用了专家混合(MoE)架构,包含 128 个专家,每次激活 8 个。 模型层数:共 94 层。 上下文长度:原生支持 262,144 (256K) tokens 的超长上下文。 运行模式:此模型仅支持非思考模式,输出中不会生成 <think></think> 标签。 性能表现 基准测试:在多个行业标准基准测试中,Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型,并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。 突出领域:在推理能力测试(如 AIME25 得分 70.3,ZebraLogic 得分 95.0)和部分知识问答测试(如 CSimpleQA 得分 84.3)中表现尤为出色,显著超越了竞争对手。 使用与部署 快速上手:可通过最新版的 Hugging Face transformers 库轻松调用模型。 服务部署:推荐使用 sglang 或 vllm 等框架进行服务化部署,以获得最佳性能。 本地运行:支持 Ollama、LMStudio、llama....

July 22, 2025 · 1 min · fisherdaddy

别只盯着 Manus “跑路”,它超前的产品认知更值得关注

最近 Manus 团队国内裁员,总部搬至新加坡,国内也无法访问了。Manus 的爆火应该是今年 3 月份, 国内很多媒体称之为 DeepSeek R1 之后的另一国运级别的创新,但它的创新不是底层模型创新,而是产品创新。如果你仔细研究过 manus 这个产品,会发现其实它本质其实就是 OpenAI 的 DeepResearch,只是表现形式不同,做个不一定恰当的类似就是DeepSeek R1 之于 OpenAI o1。 一开始我也像很多人一样认为 manus 只是个套壳产品,但我深入使用这个产品之后,彻底否定了我的认知错误,它不是简简单单的套壳,而是一个超前的产品。 在 manus 出来之前,我一直没想清楚自动操作电脑或者手机这种技术有什么大规模的应用场景,除了黑灰产或者炫技,直到 manus 的出现让我 get 到这种技术的正确用法。不应该是 AI 控制你的电脑或手机,而是应该 AI 用自己的电脑或手机(虚拟机)帮我完成一些事情。这一点其实是 manus 团队的一个非常超前的认知: ➡️ AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器; ➡️ 操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机; ➡️ 编写代码不是最终目的,而是解决各种问题的通用媒介; ➡️ Attention 不是 “all you need”,解放用户的 attention 才能 User’s Need;产品设计的核心不是争夺用户注意力,而是通过解放用户注意力来真正满足需求。 还有一个认知,我觉得特别棒:“当无法确保最终结果的绝对正确性时,必须尽可能透明地展示执行过程,并为用户提供干预的机会。” 还记得 DeepSeek R1 出来的时候大家非常喜欢,不是仅仅是因为结果非常惊艳,核心的原因是思考过程太像人类了。 我认为 manus 的成功是团队认知超前的结果(我一直信奉一句话:人只能挣到认知之内的钱)。AI 时代,只要你能提前预判几个月、半年或 1 年的趋势,并提前布局做出超预期的产品,你大概率会成功,manus 就是一个典型的例子,它提前预判和落地了 OpenAI DeepResearch 类似的产品,当然也有他们在浏览器研发上的积累有关。这里有点值得一提,manus 团队本来要做 AI 浏览器,类似于 Arc浏览器,但这个事由一个核心的问题不通:传统浏览器本质上是为单用户设计的交互工具。当 AI 开始执行任务时,用户只能被动等待,或者与 AI 争夺浏览器的控制权。...

July 13, 2025 · 1 min · fisherdaddy

Sam Altman YC AI 创业学校演讲:为什么说现在是创业“最好的时机

本文来自于OpenAI CEO & 创始人 Sam Altman 在 YC 举办的 AI 创业学校的演讲。 “我们决定,我们的目标是AGI(通用人工智能)。” 当Sam Altman和他的团队在近十年前做出这个决定时,“全世界99%的人都觉得我们疯了。”但正是这股疯狂的劲头,吸引了那相信未来的1%的顶尖人才,最终孕育出了改变世界的OpenAI。 在最近的一次对话中,这位OpenAI的CEO分享了他一路走来的思考、对未来的大胆预测,以及给所有创业者的肺腑之言。他说,现在是“科技史上,最好的他妈的时机,句号,去创办一家公司。” 回顾起点:那个曾被99%的人认为是“疯了”的AGI梦 今天回头看,OpenAI的成功似乎是板上钉钉的事。但Sam坦言,当初要不要做,其实是个“抛硬币”的决定。 那是在2015年,整整一年,他们都在讨论这个想法。那时候的AI领域,氛围和现在天差地别。别提什么能流畅对话的语言模型了,当时最前沿的研究,不过是让AI玩玩电子游戏,或者让一个笨拙的机械手勉强还原魔方。AGI这个词听起来就像个不切实际的“白日梦”。 摆在他们面前的,有无数个“不该做”的理由: 想法太疯狂:AGI听起来完全是科幻小说的范畴。 看起来不可能:当时行业巨头DeepMind遥遥领先,追赶似乎毫无希望。 有更稳妥的选择:作为当时YC的总裁,Sam面前有大把看起来“会成功”的创业项目可以投入。 “要做成一件雄心勃勃的事,总会遇到这种情况,”Sam说,“它们看起来太难了,有太多好理由让你放弃。”最终,靠的是一小群核心成员,他们关在房间里,看着彼此的眼睛,下定决心:“好吧,就这么干了。” 这个看似微不足道的决定,成了后来一切的支点。 特立独行:打造“独一无二”公司的秘密武器 决定要做AGI后,一个意想不到的好处出现了:招人反而变容易了。 “如果你说,我们要干一件疯狂、刺激、一旦成功就意义重大的事,而且别人都没在干,你反而能把很多人聚拢起来。”Sam解释道。 当他们喊出“进军AGI”的口号时,尽管99%的人觉得他们是傻子,但那1%真正被打动的人,恰恰是这个领域最聪明、最有激情的一群人。对他们来说,市面上几乎没有第二个地方可以去实现这样的梦想。于是,OpenAI成了顶尖人才的聚集地。 这给了Sam一个深刻的启示: 如果你做的事情和别人都一样,就很难汇聚顶尖人才,也很难让大家对使命产生真正的信仰。但如果你做的是一件“独一无二”的事,你就拥有了一股强大的顺风。 当然,所有伟大的公司都不是一口吃成胖子的。OpenAI也是从一个只有8个人的小房间开始,后来变成20个人,大家围着白板,苦思冥想下一篇研究论文该写什么,前路一片迷茫。 他引用了投资人Vinod Khosla的一句话,这句话完美诠-释了早期创业的精髓:“一个‘零百万美元’的创业公司和一个‘零十亿美元’的创业公司之间,有天壤之别。”虽然它们收入都是零,都是几个人挤在房间里想办法让第一个产品跑起来,但它们的潜力截然不同。 给创业者的建议很简单:选择一个市场,在某个版本的未来里,它一旦成功,就能变得巨大无比。 除此之外,剩下的就是“一步一个脚印,傻傻地坚持很长一段时间”。 AI创业的黄金时代:为什么说“现在就是最好的时机” 聊到当下,Sam的兴奋溢于言表。他认为,我们正处在一个非常有趣的时间点——模型能力和产品创新之间存在巨大的“断层”。 “模型的潜力已经在这里了(手举得很高),而人们想出来能做的产品还在这里(手放得很低)。” 这意味着,即便模型不再进步(当然,它们会进步),仅仅利用现有技术,就有海量的创新产品等待被创造。更何况: 成本在暴跌:像GPT-4o这样的模型,成本在急剧下降,而且这个趋势会持续下去。 开源模型将惊艳世人:Sam卖了个关子,但他透露OpenAI即将发布一款开源模型,其表现“会比你期望的好得多”,让人们在本地设备上运行强大模型成为可能。 模型推理能力的飞跃、API成本的下降、强大的开源模型……这些因素组合在一起,就像是在元素周期表上发现了一个全新的、没人用过的元素。这是创业公司的巨大机会。 “这绝对是一个绝佳的时期,去创办一家公司,利用这个全新的‘物种’。” 从ChatGPT到“Her”:AI的未来是你的终极伙伴 AI将走向何方?Sam的构想让人想起了电影《Her》。 他认为,今年推出的记忆(Memory)功能是他最喜欢的新功能,因为它指明了AI产品的未来方向: 你会拥有一个真正了解你的实体,它连接你所有的数据,并且会主动帮助你。它不再是你问一句、它答一句的被动工具,而是会7x24小时在后台运行,观察你的生活,知道什么时候该给你发条信息,什么时候该替你办件事。 这个“AI伙伴”将存在于你所有的设备、浏览器和你使用的每一项服务中,成为你生命中无处不在的助手。而这一切,将从记忆功能开始,逐步实现。 为了实现这个愿景,未来的AI必须是: 完全多模态的:它既能进行深度推理,也能实时生成视频,甚至在你需要时,即时为你编写一个全新的App。 与物理世界结合的:当AI拥有了视觉、语音和推理能力后,下一步自然就是进入机器人体内。Sam甚至开玩笑说,他非常期待有一天,当你订阅最高档的ChatGPT套餐时,会免费送你一个家用机器人。 发生在云端和本地的混合体:为了效率和成本,一部分计算会在本地设备上完成(OpenAI巴不得如此,因为他们的云端基础设施快要成为世界上最昂贵的了),而更强大的模型则会运行在云端。 而要打造这种“融化掉”的、无缝的交互体验,需要顶尖的设计。这也是为什么他们会与苹果公司的传奇设计师Jony Ive合作。“如果你要赌一个人能搞定下一代人机交互,他就是那个最显而易见的人选。” 给开拓者的忠告:如何在这场变革中胜出 面对如此迅猛的变革,许多创业者最大的疑问是:“我怎么才能不被OpenAI碾压?” Sam的回答很坦诚: 1. 关于“护城河”:别造我们的船,去发现你的新大陆 “我们不希望碾压你们。”Sam说,OpenAI会专注于把ChatGPT打造成最好的超级助理,但这只是冰山一角。他感到难过的是,太多人想做的只是“另一个版本的ChatGPT”。 “我们在这方面已经有很大的领先优势了。”他建议,创业者应该去寻找那些真正独特、没人做过的领域。 历史证明,最持久的公司,往往不是在做和别人一样的事情。这会给你时间去打磨产品,建立真正的壁垒。 OpenAI自己也曾长期没有“护城河”,唯一的优势就是“市场上只有我们这一个能用的产品”。直到后来,品牌、记忆功能、生态连接等才构成了真正的防御。 2. 关于招聘:雇佣“斜率”,而不是“截距” 如何招到最优秀的人?Sam的标准非常清晰,而且和他早年在YC时一脉相承: 关注核心特质:聪明、有驱动力、好奇、能自我激励、勤奋、能团队合作、方向一致。 看重实际成果,而非履历:他从不看重求职者来自谷歌还是上了哪所名校,而是直接去看“你做过最牛逼的事情是什么?” 雇佣“斜率”,而不是“截距”:他引用了YC联合创始人Paul Buchheit的名言,意思是要看一个人的成长潜力(斜率),而不是他当下的成就(Y轴截距)。一个年轻、斗志昂扬、能搞定事情的人,远比一个履历光鲜但已僵化的大公司高管更有价值。 3....

July 11, 2025 · 1 min · fisherdaddy