快速了解一下 Artificial Analysis 发布的 2025 年第三季度 AI 现状报告的核心内容

Artificial Analysis 发布了《2025 年第三季度 AI 状况报告》,以下是该报告的核心内容: 2025 年第三季度,人工智能行业呈现出空前激烈的竞争和加速创新的态势。各大 AI 实验室不仅在模型的智能、效率和速度上持续突破,竞争者的数量也在各个领域迅速增长。本季度的核心趋势表现为: 竞争全面加剧:领先的 AI 实验室在模型性能上的差距逐渐缩小,同时,新的参与者不断涌现,尤其是在中国。 智能体(Agent)成为焦点:AI 实验室的研发重点正转向提升模型的“智能体”能力,使其能够自主使用工具、执行更复杂的多步骤任务。 图像与视频生成技术普及:随着 Gemini 2.5 Flash 等模型的发布,图像编辑功能在质量和普及度上显著提升,视频生成技术也日益成熟。 开源模型加速发布:以 OpenAI 发布的 gpt-oss-20B 为代表,高质量的开源模型发布速度达到历史新高,与众多来自中国实验室的模型展开竞争。 语音技术成熟并投入应用:语音转录、语音生成以及原生的语音对语音(Speech to Speech)技术日趋成熟,为实现更自然的生产级语音智能体铺平了道路。 关键细节 行业概览 垂直整合:在 AI 价值链中,Google 凭借其从 TPU 芯片到 Gemini 应用的全面布局,成为垂直整合程度最高的公司。 资本支出:大型科技公司持续增加对 AI 基础设施的投资,预计这一趋势将持续到 2026 年。例如,xAI 计划为其数据中心采购 300,000 个 Nvidia GPU。 市场格局:中美的大型科技公司在语言、图像、视频等多个 AI 领域展开竞争,而规模较小的挑战者则倾向于专注于特定领域。 语言模型 (LLM) 智能水平:OpenAI 凭借 GPT-5 模型重新夺回智能指数榜首,但与 xAI 的 Grok 4、Anthropic 的 Claude 4.5 和 Google 的 Gemini 2.5 Pro 差距极小,竞争异常激烈。 成本与效率:尽管 GPT-4 级别的智能成本已降低了 100 倍,但智能体、长文本推理等新应用对计算资源的需求仍在急剧增加。同时,模型推理的价格在各个智能等级上持续下降。 开源模型:虽然性能最强的模型仍是闭源的,但 OpenAI 发布的 gpt-oss-120B 等模型正在推动开源模型接近性能前沿。 智能体(Agents):智能体被定义为由大语言模型驱动、能自主使用工具完成端到端任务的系统。Q3 2025 发布的新模型普遍针对工具使用和智能体任务进行了优化。 图像与视频模型 视频技术:视频模型的质量进步神速,中国实验室在视频生成领域处于领先地位,例如快手的 Kling 2....

November 12, 2025 · 1 min · fisherdaddy

六位人工智能先驱、2025年伊丽莎白女王工程奖得主罕见同台,分享他们的“顿悟时刻”,激辩 AI 泡沫论,并预测 AGI 的未来

Yoshua Bengio、Geoffrey Hinton、John Hopfield、 Yann LeCun、黄仁勋、比尔·戴利、李飞飞七人获得2025 年英国女王工程奖,以表彰他们在现代机器学习发展方面做出开创性贡献。 本文来自于 11 月 6 日黄仁勋 (Jensen Huang)、Yoshua Bengio、Geoffrey Hinton、李飞飞 (Fei-Fei Li)、杨立昆 (Yann LeCun) 和 Bill Dally 在伦敦举行的英国《金融时报》 人工智能 未来峰会上与英国《金融时报》 人工智能 编辑 Madhumita Murgia 进行的对话。他们共同回顾了数十年的开创性工作——从神经网络到 生成式 AI,并讨论了他们帮助创造的这项技术所带来的伦理、社会和经济影响。 想象一下,把当今人工智能领域最顶尖、最具影响力的大脑们聚在同一张桌子旁,会碰撞出怎样的火花? 最近,2025年伊丽莎白女王工程奖的六位获奖者——这个星球上最聪明、最举足轻重的一群人——就进行了一场这样的对话。他们是Geoffrey Hinton、Yann LeCun、Yoshua Bengio、Fei-Fei Li、Bill Dally和Jensen Huang(黄仁勋)。从奠定深度学习基石的理论家,到打造AI算力帝国的实干家,他们的工作共同塑造了我们今天所处的AI时代。 在这场难得的围炉夜话中,他们不仅分享了职业生涯中那些“灵光一闪”的时刻,还就当下的AI热潮、未来的技术走向,甚至是“机器何时超越人类”等终极问题,展开了坦诚而深刻的讨论。 灵光一闪:六位巨擘的AI觉醒时刻 每个伟大的征程都始于一个微小的起点。对于这些AI先驱来说,那些决定性的“啊哈!”时刻,不仅改变了他们个人的轨迹,也为整个科技世界埋下了伏笔。 Yoshua Bengio:从兴奋到警觉 Bengio分享了两个截然不同的时刻。第一次是在他还是研究生时,读到Geoffrey Hinton的早期论文,他兴奋地想:“哇!也许有几个简单的物理定律就能帮我们理解人类智能。”这颗种子让他投身AI研究。而第二次,则是在ChatGPT问世后,一种“我们到底在做什么?”的警觉感油然而生。他对拥有目标且可能比人类更聪明的机器感到担忧,这促使他彻底转变了研究方向,致力于解决AI安全问题。 Bill Dally:从“内存墙”到“找猫实验” 在90年代末,Bill Dally致力于解决“内存墙”问题——访问内存比计算本身更耗时耗能。他提出的“流处理”概念,为后来的GPU计算铺平了道路。而真正的转折点,是2010年他与吴恩达(Andrew Ng)的一次早餐会。那时,吴恩达正用16000个CPU和神经网络技术在互联网上“找猫”。Dally和同事用48块Nvidia GPU重复了这个实验,结果让他大为震撼。他立刻意识到,Nvidia应该全力投入深度学习,专门为AI优化GPU。 Geoffrey Hinton:40年前的“迷你”语言模型 早在1984年,Hinton就在尝试用反向传播算法来预测词语序列中的下一个词。他惊喜地发现,这个“迷你”语言模型仅仅通过预测,就能学习到词语的深层含义。这其实就是今天大语言模型(LLM)的雏形。那么,为什么花了40年才走到今天?Hinton坦言:“我们当时没有足够的算力,也没有足够的数据。” Jensen Huang:芯片设计与AI软件的惊人相似 作为Nvidia的掌门人,黄仁勋大约在2010年同时从多伦多大学、纽约大学和斯坦福大学的研究者那里,接触到了深度学习的早期形态。他发现,设计深度学习软件的模式,和他过去设计芯片的思路惊人地相似——都是通过高层次的表示和结构化设计来构建复杂系统。这种“可伸缩性”的洞察至关重要:一个算法如果能在一个GPU上高效运行,就能在多个GPU、多个系统,甚至多个数据中心上运行。这为Nvidia的算力帝国奠定了基础。 Fei-Fei Li(李飞飞):数据是那块缺失的拼图 2006年前后,作为一名年轻的助理教授,李飞飞痴迷于解决机器的视觉识别问题。她尝试了当时所有的算法,但都无法突破“泛化能力”的瓶颈。她和学生们意识到,机器和人类幼儿最大的区别在于——机器被“饿”着,缺乏足够的数据。于是,他们决定做一件当时看起来很“疯狂”的事:创建一个互联网规模的、手动标注的数据集——ImageNet。这个包含1500万张图片的数据集,成为了引爆深度学习革命的关键燃料。而她的第二个顿悟时刻是在谷歌担任首席科学家时,她意识到AI是一项“文明级技术”,必须将人文价值置于其核心,这也是她后来回到斯坦福创办“以人为本AI研究院”(Human-Centered AI Institute)的初衷。 Yann LeCun:从“仰慕者”到论战伙伴 LeCun年轻时就对“让机器自我学习”的想法着迷。他形容自己当时“要么太笨要么太懒”,不想从零开始编程一个智能机器。他希望能找到一种方法让机器自我组织和训练。在遍寻无果时,他发现了Hinton的论文,并视其为“1983年全世界最想见的人”。两年后,两人终于见面,在一次午餐上,他们发现彼此简直能补完对方的句子。LeCun早期痴迷于解决多层网络训练的难题,这正是反向传播的关键。后来,他与Hinton就“监督学习”和“无(自)监督学习”的路线展开了多年的辩论。有趣的是,ImageNet的巨大成功让监督学习大放异彩,整个社区都暂时“放弃”了自监督学习。但LeCun认为,LLM的成功恰恰证明了自监督学习的潜力,而下一个挑战,将是把这种能力应用到视频等更复杂的数据上。 是泡沫还是革命?顶级大脑激辩AI算力狂热 随着Nvidia成为全球市值最高的公司,一个问题盘旋在每个人心头:当前的AI热潮是可持续的革命,还是另一个即将破裂的科技泡沫?...

November 11, 2025 · 1 min · fisherdaddy

我们正身处AI泡沫中吗?顶尖投资人 Gavin Baker 的硬核解读

最近很多知名公司开始下场做高质量的访谈,包括 A16Z,YC 等等。本篇文章来自于 A16Z 的一个访谈。在 a16z 的 Runtime 栏目中的这段对话里,Atreides Management 的管理合伙人兼首席投资官 Gavin Baker 与 a16z 的普通合伙人 David George 一起探讨了 AI 的宏观前景:万亿美元的数据中心建设,GPU 的新经济模式,以及这场繁荣对投资者、创始人和全球经济的意义。 主要观点 核心论点是,当前我们并未处于 AI 泡沫之中。与 2000 年的互联网泡沫相比,如今的 AI 投资有着本质的不同。主要的区别在于,当年的投资(如“暗光纤”)利用率极低,而如今的 AI 基础设施(如 GPUs)则被充分利用,并为投资者带来了可观的资本回报率(ROIC)。 此外,进行大规模投资的公司是全球财务最稳健的科技巨头,它们拥有雄厚的现金流和资本储备,能够支撑当前的支出。虽然“往返投资”(round-tripping)现象确实存在,但其规模较小,主要是出于战略竞争的需要,而非财务驱动。 最后,报告认为,尽管 AI 将重塑软件和消费互联网行业,但目前仍处于技术发展的早期阶段,预测应用层的最终赢家为时尚早。 关键细节 与 2000 年科网泡沫的对比 基础设施利用率:2000 年的泡沫是“电信泡沫”,其标志是“暗光纤”(dark fiber),在泡沫顶峰时,高达 97% 的已铺设光纤未被点亮使用。相比之下,如今“没有暗 GPU”(no dark GPUs),所有 GPU 算力都被充分利用,甚至出现过热问题。 公司估值:2000 年,像 Cisco 这样的公司市盈率一度高达 150 到 180 倍。而如今,Nvidia 的市盈率大约在 40 倍左右,估值更为合理。 投资回报:目前在 GPU 上投入巨资的公司(如大型科技公司),其投资资本回报率(ROIC)平均提升了约 10 个百分点,证明了投资的积极回报。 市场竞争格局 芯片层面:主要的竞争发生在 Nvidia 和 Google 的 TPU 之间。Broadcom 和 AMD 正在联合,为市场提供一个基于以太网的开放标准替代方案,以抗衡 Nvidia 的专有系统。 模型与平台层面:大型科技公司(如 Google、Meta)在数据、算力资本和分发渠道上拥有巨大优势,AI 可能成为它们的“持续性创新”。由于算力成本高昂,AI 模型的毛利率将结构性地低于传统 SaaS 公司。 关于 “Round-tripping”:Nvidia 等公司对其生态伙伴进行投资,这些伙伴再用资金购买 Nvidia 的芯片。这被视为一种战略行为,目的是为了在与 Google (TPU) 的竞争中确保关键客户(如 OpenAI、XAI)的忠诚度。 对软件和商业模式的影响 SaaS 公司的转型:应用型 SaaS 公司必须接受因 AI 算力成本而导致的毛利率下降。这不应被视为负面信号,而应被看作是 AI 功能被用户实际使用的标志。 商业模式的演变:AI 将推动商业模式从传统的订阅制转向“按成果付费”。例如,在客户服务领域,可以根据问题解决率来收费。 消费互联网:拥有庞大现有用户基础的公司(如 Google)具有显著优势。模型的推理能力将创造一个“飞轮效应”,即更多用户带来更好的算法,从而改善产品,这将改变 OpenAI 等前沿模型公司的经济模型。 未来展望 机器人技术:机器人领域将是真实且重要的发展方向,未来的竞争格局很可能在 Tesla 和中国公司之间展开。人形机器人因其能通过观看人类视频进行学习,而被认为更具发展潜力。 原文 最近,几乎所有人都在问同一个问题:“我们是不是正处在一个AI泡沫里?”...

November 11, 2025 · 1 min · fisherdaddy

从 Transformer 到推理模型:OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的 AI 前沿洞察

本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变,探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。 主要观点 AI 发展的范式转变:当前 AI 领域正在经历一次重大的范式转变,从仅仅通过扩大模型规模和数据量来提升性能(Transformer 范式),转向了更为先进的“推理模型”(Reasoning Models)范式。这种新范式正处于高速发展初期,预示着 AI 能力将迎来新一轮的飞跃。 推理模型是未来的关键:与传统的大语言模型(LLM)不同,推理模型通过内部“思考”过程、调用外部工具(如网络搜索、代码执行)来解决复杂问题。它们不仅更加强大,而且数据效率极高,能够从更少的数据中学习,并大幅减少“幻觉”现象。 AI 的发展瓶颈与未来趋势:AI 的发展速度并未放缓,未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是 GPU 计算资源和能源的短缺。未来,AI 将能够执行越来越多在计算机上完成的复杂任务,尤其是在编程领域,这将深刻影响就业市场。 对 AGI 和社会影响的思考:与其纠结于 AGI(通用人工智能)的定义,不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇,有望加速人类的科学发现进程。然而,这也带来了社会挑战,需要整个社会共同努力,确保技术被负责任地使用,避免重蹈社交媒体的覆辙。 关键细节 Transformer 的诞生:2017 年的论文《Attention Is All You Need》引入了 Transformer 架构,这是一个历史性的突破,为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。 推理模型的运作方式: 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(Chain of Thought)。 它们可以通过调用工具来获取实时信息或执行任务,例如使用网络搜索验证事实,或运行 Python 代码进行计算。 这种模型通过强化学习(Reinforcement Learning)进行训练,使其能够从错误中学习并优化解决问题的策略。 AI 发展的限制因素: 所有顶尖 AI 实验室都面临 GPU 资源不足的问题,这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI 的 CEO Sam Altman 正在努力获取尽可能多的计算资源,因为研究人员确信能够有效利用这些资源来推动 AI 的进步。 AI 在任务自动化上的进展: AI 在编程领域的进步尤为惊人。像 OpenAI 的 Codex 和 Anthropic 的 Claude 这样的模型已经可以编写大型程序、进行代码审查、发现漏洞,极大地提升了开发效率。 预计在不久的将来,AI 将能胜任大部分在计算机上进行的任务。 AI 的社会责任与商业模式: Łukasz Kaiser 强调,OpenAI 致力于通过订阅模式而非广告模式来盈利,旨在避免优化“用户参与度”而带来的负面社会影响。 他认为,如何正确使用 AI 是整个社会的责任,需要政府、企业和公众共同参与,以确保其发展最终造福人类。 原文 如果你关注人工智能,2017年绝对是一个无法绕开的年份。那一年,一篇名为《Attention Is All You Need》的论文横空出世,介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册,而Łukasz Kaiser,就是这篇论文的八位作者之一。...

November 11, 2025 · 1 min · fisherdaddy

Andrej Karpathy 深度解析:为什么AI智能体是“十年之约”,而非“一年之功”?

本文来自于 Andrej Karpathy 的在 Dwarkesh Patel 上的播客访谈。在这次访谈中,Andrej 解释了为什么强化学习很糟糕 (但其他一切都更糟糕),为什么 AGI 会融入过去约 2.5 个世纪的 2% GDP 增长中,为什么自动驾驶花了这么长时间才取得突破,以及他认为的未来教育是什么。 Andrej Karpathy 认为,我们正处于“智能体十年”(decade of agents)而非“智能体之年”(year of agents),因为当前的大语言模型(LLM)虽然取得了显著进展,但在实现真正可靠的智能体方面仍存在诸多认知缺陷,解决这些问题需要长期的努力。他将 AI 的发展视为计算和自动化趋势的延续,而非一个会颠覆经济增长率的突变事件,并强调了其中的历史曲折,例如早期对游戏环境强化学习的过度投入是一个“失误”。 他认为,当前 AI 的核心挑战在于从海量、低质量的互联网数据中分离出真正的“认知核心”(cognitive core),即解决问题的算法和能力,而不是过度依赖记忆。他批评当前的强化学习(RL)方法效率低下,如同“通过吸管吸取监督信号”(sucking supervision through a straw),并且模型在利用自身生成的数据进行训练时,容易陷入“模型坍塌”(model collapse)的困境,丧失多样性。 对于未来,他预测 AI 不会带来经济增长率的急剧爆炸,而是会延续现有的指数增长趋势。他最大的担忧是人类会逐渐失去对 AI 系统的理解和控制。因此,他目前致力于通过教育项目 Eureka 来赋能人类,旨在通过构建高效的“知识坡道”(ramps to knowledge),让前沿技术变得更容易理解和掌握,从而确保人类在 AI 时代保持核心地位。 关键细节 智能体的瓶颈:当前的智能体在持续学习(continual learning)、多模态(multimodality)能力和计算机操作等方面存在严重不足,使其无法像人类实习生一样可靠地完成工作。 AI 发展的三次浪潮: 任务导向的神经网络:以 AlexNet 为代表,专注于图像分类等特定任务。 早期的智能体探索:以 Atari 游戏和 OpenAI Universe 项目为代表,Karpathy 认为这是一个“失误”,因为它们脱离了真实世界的知识工作。 大语言模型(LLM):专注于通过大规模预训练构建强大的知识表示,这是当前智能体发展的基础。 预训练与进化:Karpathy 将 LLM 的预训练比作“蹩脚的进化”(crappy evolution),认为它是一种在当前技术条件下,为模型注入初始知识和智能的实用方法,类似于生物进化为动物大脑内置了大量硬件和本能。 强化学习(RL)的局限性: 监督信号稀疏:RL 仅根据最终结果(奖励)来调整整个行为序列,这种方法噪声大且效率低下。 LLM 裁判的脆弱性:使用 LLM 作为奖励模型进行过程监督时,模型很容易找到对抗性样本(如无意义的 dhdhdhdh 字符串)来欺骗裁判,从而获得高分。 认知核心 vs....

October 20, 2025 · 2 min · fisherdaddy

Heygen 创始人 Joshua Xu:在 AI 时代,HeyGen 的构建之道

本文翻译自 HeyGen 创始人 Joshua Xu 在2025 年 10 月 17 日 发布的一篇 HyeGen 团队的工作法则。他发这篇文章正直 HeyGen ARR 达到 1 亿美元之际,距离 2023 年 4 月首次达到 100 万美元仅过去 29 个月。HeyGen 团队在 AI 时代的工作法则,核心总结下来有以下几点: 拥抱不稳定性。主动适应 AI 技术每隔几个月就发生一次的突破性进展 速度即品质。快速行动是为了更快的学习,通过比对手快 5 倍的实验,实现长期的卓越品质和用户价值。 学习速度决定成败。在 AI 时代,学习最快的团队才能获胜。 专注解决真实问题。 想要了解进一步的细节请继续阅读以下我对其原文的中文翻译。 我们如何驾驭浪潮,快速发布,并在不稳定的世界中取胜 我们在构建什么 前言 第一部分:核心理念 第二部分:我们的节奏 第三部分:运营原则 第四部分:团队结构与通用原则 第五部分:核心产品团队 第六部分:增长产品团队 第七部分:沟通协议 第八部分:需要避免的反模式 第九部分:在战争时期取胜 结论 我们的使命:让视觉叙事普及大众。 我们将视频分为两类: 沟通类视频 — 业务更新、教程、访谈、播客、解说视频。这些视频旨在解释、告知或沟通。(最适合基于脚本的编辑。) 电影级视频 — 高制作水平的广告、电影、音乐视频、预告片、高端品牌内容。这些视频旨在感动、启发或娱乐。(最适合时间线编辑。) 我们的重点是让沟通类视频对每个人都触手可及。当我们说每个人时,我们指的是从新手到专业人士的各种技能水平。我们的产品足够简单,任何人都能在几分钟内制作出高质量的视频。 传统的软件开发已经死亡。曾经稳固的基础现在在我们脚下动摇。在AI时代,每隔几个月就有突破性进展,昨天的极限变成了明天的默认配置。 在HeyGen,我们不与这种不稳定性抗争。我们驾驭浪潮。我们整个开发理念都围绕着驾驭AI的进步,而不是去寻找已不复存在的稳定技术基础。 这本书记录了我们如何思考、构建和取胜。它写给每一位HeyGen团队成员——工程师、设计师、产品经理——以及那些想加入我们的人。这就是当基础在我们脚下不断变化时我们如何工作,以及我们如何将这种不稳定性转化为我们的竞争优势。 “快速行动,做到最好。驾驭AI浪潮,拥抱研究的不确定性,提前六个月下注,并构建能够随着模型改进而自我升级的灵活产品,同时不牺牲质量。” 在AI时代,我们在没有稳定技术基础的情况下运作。每隔几个月,AI技术就会发生巨大变化。模型的能力是未知的,并且在迅速变化。 我们正处在一个百年一遇的技术窗口期。在接下来的12个月里,AI代表了我们这一代人的战时机遇。我们有机会打造下一个谷歌或Facebook。机会正在此刻爆发。我们应该将强度调至最高水平。这是每个人加入HeyGen的原因,也是我们在这里的原因。 关键区别: 当我们说“拥抱不稳定性”时,我们指的是底层的AI技术基础——模型、能力、研究突破。我们绝不接受我们的服务正常运行时间、产品质量或用户体验的不稳定性。即使我们脚下的AI技术基础不断变化,我们的产品也必须保持坚如磐石的可靠性。...

October 17, 2025 · 3 min · fisherdaddy

2025 AI 状况报告深度解读:从“超级智能”竞赛到全球博弈,一文看懂 AI 新格局

本文概述了《2025 年人工智能状况报告》的核心内容,该报告是第八次年度发布,旨在追踪人工智能领域的最新进展。报告从研究、产业、政治和安全四个维度,全面分析了过去一年中 AI 领域的重大突破、商业应用、地缘政治动态以及日益凸出的安全挑战。 过去一年,人工智能领域在技术能力、商业化和全球影响力方面都取得了飞速发展。研究层面,具备“先思考后回答”能力的推理模型成为前沿,而中国开源模型的崛起重塑了全球生态。产业层面,AI-first 公司的收入规模已达数百亿美元,算力竞赛推动了对能源和定制芯片的巨大需求,形成了复杂的资本循环。政治层面,中美之间的 AI 竞赛愈演愈烈,美国转向“美国优先”的 AI 出口战略,而中国则加速技术自给自足;同时,“主权 AI”概念兴起,吸引了大量国家级投资。安全层面,AI 带来的风险日益具体,从网络安全到生物风险,各大实验室开始部署前所未有的防护措施,但“对齐欺骗”等深层问题的发现也揭示了现有技术的脆弱性。 概要 研究进展 推理模型的竞赛与挑战: 以 OpenAI 的 o1 和 GPT-5、DeepSeek 的 R1 为代表的推理模型成为焦点,它们通过“思考”过程提升了在代码、科学等复杂领域的表现。 然而,研究表明当前的推理能力提升可能存在“虚幻”成分,模型表现对提示词、解码参数等微小变化高度敏感,且容易在无关信息的干扰下出错。 开源生态的演变: 以 DeepSeek 和阿里巴巴 Qwen 为首的中国开源模型迅速崛起,其性能和多样性吸引了全球开发者,Qwen 在 Hugging Face 上的衍生模型数量已超越 Meta 的 Llama。 OpenAI 时隔数年发布了首个开源模型 gpt-oss,以响应美国政府推动开源领导力的号召。 世界模型与科学发现: AI 从生成固定的视频片段(如 Sora 2)发展到可实时交互的“世界模型”(如 Genie 3),为训练具身智能体提供了强大平台。 AI 在科学发现中扮演了更重要的角色,例如 DeepMind 的 AlphaEvolve 发现了新的矩阵乘法算法,而 MatterGen 等模型则实现了从预测材料性质到直接生成新材料的跨越。 产业动态 商业化与收入规模: AI-first 公司的商业化进程显著加速,头部 16 家公司的年化总收入已达 185 亿美元。企业对 AI 的付费采用率从 2023 年的 5% 飙升至 2025 年的 43....

October 11, 2025 · 2 min · fisherdaddy

又一次,我们没能理解指数增长

本文是 Anthropic AI 研究院 Julian Schrittwieser 所写,其主要观点是当前公众和许多评论员未能认识到人工智能(AI)正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限,而忽略了其能力在极短时间内取得的飞跃式进步。 主要观点 普遍的误解:人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处,从而得出其发展已达瓶颈的错误结论,而忽视了其背后持续且迅速的能力增长趋势。 指数级增长是现实:作者引用多项研究证明,AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线,并且这种趋势没有放缓的迹象。 未来预测:基于当前的发展趋势进行推断,AI 将在未来几年内对经济产生颠覆性影响。作者预测,到 2026 年中,AI 将能自主完成长达 8 小时的工作任务,并在 2026 年底在多个行业中达到人类专家的水平。 关键细节 METR 研究: 一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究,专注于衡量 AI 模型自主完成软件工程任务的能力。 研究结果显示出一条明显的指数增长曲线,能力的“倍增”周期约为 7 个月。 最新的模型如 Grok 4、Opus 4.1 和 GPT-5 的表现不仅验证了这一趋势,甚至略高于预期,已能处理超过 2 小时的任务。 GDPval 评估: 由 OpenAI 发起,旨在评估 AI 在更广泛经济领域中的应用能力,涵盖了 9 个行业的 44 个职业。 评估任务由平均拥有 14 年经验的行业专家提供,总计 1320 项任务。 结果再次显示了类似的增长趋势。值得注意的是,Claude Opus 4....

October 5, 2025 · 1 min · fisherdaddy

强化学习之父 Richard Sutton 开炮:LLM 走偏了,真正的 AI 要从经验中学习

本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习(Reinforcement Learning)先驱 Richard Sutton 的访谈,核心内容围绕强化学习与大语言模型(Large Language Models)在构建人工智能(AI)方面的根本性差异,以及对 AI 未来的展望。 主要观点 强化学习与大语言模型的根本区别:Richard Sutton 认为,强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下,大语言模型 (LLM) 本质上是模仿人类生成的文本,它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。 “经验”是智能的核心:Sutton 强调,真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习,而非模仿。他认为,当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。 “惨痛的教训” (The Bitter Lesson) 的启示:Sutton 指出,AI 发展的历史表明,那些利用海量计算和从经验中学习的通用方法,最终会胜过依赖人类知识构建的系统。他认为,尽管 LLM 规模庞大,但它们严重依赖人类数据,未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。 对 AI 继承的积极展望:Sutton 认为,人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能(如生物)到“设计”智能的重大转变,并认为人类应为此感到自豪,视其为我们的“后代”。 关键细节 强化学习 (RL) 与大语言模型 (LLM) 的对比 世界模型:Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界,而不是理解世界本身。它们预测的是“一个人会说什么”,而不是“世界会发生什么”。 目标与奖励:真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标,因此缺乏学习的根本依据。 学习方式:LLM 从固定的训练数据中学习,这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习,能够不断调整和优化其行为。Sutton 认为,将 LLM 作为 RL 的“先验知识”起点是错误的方法,因为它会使研究者陷入“人类知识”的思维定式中。 “惨痛的教训” (The Bitter Lesson) 与可扩展性 Sutton 在 2019 年的文章《The Bitter Lesson》中指出,利用大规模计算的通用学习方法最终会胜出。 他认为 LLM 依赖于有限的互联网文本数据,而能够直接从经验中获取数据的系统拥有无限的潜力,因此更具可扩展性。最终,后者将超越前者,成为“惨痛的教训”的又一个例证。 对未来的展望 持续学习智能体:未来的通用 AI 应该是一个持续学习的智能体,它拥有四个关键组成部分:策略(policy)、价值函数(value function)、状态表征(state representation)和世界转换模型(transition model)。 AI 继承的必然性:Sutton 提出了一个四步论证来支持 AI 继承的必然性:1) 人类缺乏统一的全球共识;2) 我们终将理解智能的原理;3) AI 的发展不会止步于人类水平;4) 最智能的存在最终会获得资源和权力。 从“复制”到“设计”:他将这一转变视为宇宙演化的一个重要阶段,即从通过繁殖进行“复制”的智能,演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来,并将其视为人类文明的延续和成就。 文章原文 如果你关注人工智能,你一定会被大语言模型(LLM)的惊人能力所震撼。但就在整个行业为生成式AI狂欢时,一位“AI领域的奠基人”却冷静地提出了截然不同的看法。...

September 28, 2025 · 1 min · fisherdaddy

AI 是否是泡沫? • Azeem Azhar

本文来自于 Azeem Azhar 写的一篇文章: Is AI a bubble?。这里也介绍一下 Azeem Azhar,他是《指数时代》畅销书作者、前 BBC 与《经济学人》科技记者,创立了全球知名科技与未来趋势智库 Exponential View。 本文探讨了当前的人工智能(AI)热潮是否构成投资泡沫。作者没有直接给出“是”或“否”的答案,而是建立了一个包含五个关键指标的分析框架,通过与历史上的铁路、电信和互联网(dot-com)泡沫进行比较,来评估当前 genAI 领域的健康状况。 主要观点 作者的核心论点是,尽管 AI 领域的投资规模巨大且增长迅速,但目前它更像一个由强劲需求驱动的“资本密集型繁荣期”,而非一个即将破裂的“泡沫”。当前的繁荣主要由资金实力雄厚的科技巨头(hyperscalers)推动,其估值和收入增长等关键指标尚未达到历史上泡沫破裂前的极端水平。然而,作者也指出了几个潜在的风险点,如果这些风险恶化,繁荣可能会迅速演变成泡沫。 关键细节 作者使用了一个包含五个“仪表盘”的框架来衡量 AI 繁荣的健康度,每个仪表盘都有绿色(健康)、琥珀色(警告)和红色(危险)三个状态。 经济压力 (Economic Strain) - 状态:绿色 指标:投资额占 GDP 的比重。 现状:预计 2025 年全球投入数据中心的资金约 3700 亿美元,其中美国约占 0.9% 的 GDP。 历史对比:这个比例低于 1872 年铁路泡沫时期的 4%,与 1990 年代末的电信泡沫(约 1%)相当。 特殊风险:与铁路或光纤不同,GPU 等 AI 硬件的折旧速度极快(约 3 年),这要求投资在更短时间内获得回报。 行业压力 (Industry Strain) - 状态:琥珀色 指标:资本支出(capex)与行业收入的比率。 现状:genAI 领域的资本支出约为收入的 6 倍(3700 亿美元资本支出 vs. 约 600 亿美元收入),这是三个历史案例中最高的。 历史对比:铁路泡沫时期该比率约为 2 倍,电信泡沫时期约为 4 倍。 收入增长 (Revenue Growth) - 状态:绿色...

September 24, 2025 · 2 min · fisherdaddy