从 Transformer 到推理模型:OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的 AI 前沿洞察

本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变,探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。 主要观点 AI 发展的范式转变:当前 AI 领域正在经历一次重大的范式转变,从仅仅通过扩大模型规模和数据量来提升性能(Transformer 范式),转向了更为先进的“推理模型”(Reasoning Models)范式。这种新范式正处于高速发展初期,预示着 AI 能力将迎来新一轮的飞跃。 推理模型是未来的关键:与传统的大语言模型(LLM)不同,推理模型通过内部“思考”过程、调用外部工具(如网络搜索、代码执行)来解决复杂问题。它们不仅更加强大,而且数据效率极高,能够从更少的数据中学习,并大幅减少“幻觉”现象。 AI 的发展瓶颈与未来趋势:AI 的发展速度并未放缓,未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是 GPU 计算资源和能源的短缺。未来,AI 将能够执行越来越多在计算机上完成的复杂任务,尤其是在编程领域,这将深刻影响就业市场。 对 AGI 和社会影响的思考:与其纠结于 AGI(通用人工智能)的定义,不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇,有望加速人类的科学发现进程。然而,这也带来了社会挑战,需要整个社会共同努力,确保技术被负责任地使用,避免重蹈社交媒体的覆辙。 关键细节 Transformer 的诞生:2017 年的论文《Attention Is All You Need》引入了 Transformer 架构,这是一个历史性的突破,为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。 推理模型的运作方式: 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(Chain of Thought)。 它们可以通过调用工具来获取实时信息或执行任务,例如使用网络搜索验证事实,或运行 Python 代码进行计算。 这种模型通过强化学习(Reinforcement Learning)进行训练,使其能够从错误中学习并优化解决问题的策略。 AI 发展的限制因素: 所有顶尖 AI 实验室都面临 GPU 资源不足的问题,这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI 的 CEO Sam Altman 正在努力获取尽可能多的计算资源,因为研究人员确信能够有效利用这些资源来推动 AI 的进步。 AI 在任务自动化上的进展: AI 在编程领域的进步尤为惊人。像 OpenAI 的 Codex 和 Anthropic 的 Claude 这样的模型已经可以编写大型程序、进行代码审查、发现漏洞,极大地提升了开发效率。 预计在不久的将来,AI 将能胜任大部分在计算机上进行的任务。 AI 的社会责任与商业模式: Łukasz Kaiser 强调,OpenAI 致力于通过订阅模式而非广告模式来盈利,旨在避免优化“用户参与度”而带来的负面社会影响。 他认为,如何正确使用 AI 是整个社会的责任,需要政府、企业和公众共同参与,以确保其发展最终造福人类。 原文 如果你关注人工智能,2017年绝对是一个无法绕开的年份。那一年,一篇名为《Attention Is All You Need》的论文横空出世,介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册,而Łukasz Kaiser,就是这篇论文的八位作者之一。...

November 11, 2025 · 1 min · fisherdaddy

Andrej Karpathy 深度解析:为什么AI智能体是“十年之约”,而非“一年之功”?

本文来自于 Andrej Karpathy 的在 Dwarkesh Patel 上的播客访谈。在这次访谈中,Andrej 解释了为什么强化学习很糟糕 (但其他一切都更糟糕),为什么 AGI 会融入过去约 2.5 个世纪的 2% GDP 增长中,为什么自动驾驶花了这么长时间才取得突破,以及他认为的未来教育是什么。 Andrej Karpathy 认为,我们正处于“智能体十年”(decade of agents)而非“智能体之年”(year of agents),因为当前的大语言模型(LLM)虽然取得了显著进展,但在实现真正可靠的智能体方面仍存在诸多认知缺陷,解决这些问题需要长期的努力。他将 AI 的发展视为计算和自动化趋势的延续,而非一个会颠覆经济增长率的突变事件,并强调了其中的历史曲折,例如早期对游戏环境强化学习的过度投入是一个“失误”。 他认为,当前 AI 的核心挑战在于从海量、低质量的互联网数据中分离出真正的“认知核心”(cognitive core),即解决问题的算法和能力,而不是过度依赖记忆。他批评当前的强化学习(RL)方法效率低下,如同“通过吸管吸取监督信号”(sucking supervision through a straw),并且模型在利用自身生成的数据进行训练时,容易陷入“模型坍塌”(model collapse)的困境,丧失多样性。 对于未来,他预测 AI 不会带来经济增长率的急剧爆炸,而是会延续现有的指数增长趋势。他最大的担忧是人类会逐渐失去对 AI 系统的理解和控制。因此,他目前致力于通过教育项目 Eureka 来赋能人类,旨在通过构建高效的“知识坡道”(ramps to knowledge),让前沿技术变得更容易理解和掌握,从而确保人类在 AI 时代保持核心地位。 关键细节 智能体的瓶颈:当前的智能体在持续学习(continual learning)、多模态(multimodality)能力和计算机操作等方面存在严重不足,使其无法像人类实习生一样可靠地完成工作。 AI 发展的三次浪潮: 任务导向的神经网络:以 AlexNet 为代表,专注于图像分类等特定任务。 早期的智能体探索:以 Atari 游戏和 OpenAI Universe 项目为代表,Karpathy 认为这是一个“失误”,因为它们脱离了真实世界的知识工作。 大语言模型(LLM):专注于通过大规模预训练构建强大的知识表示,这是当前智能体发展的基础。 预训练与进化:Karpathy 将 LLM 的预训练比作“蹩脚的进化”(crappy evolution),认为它是一种在当前技术条件下,为模型注入初始知识和智能的实用方法,类似于生物进化为动物大脑内置了大量硬件和本能。 强化学习(RL)的局限性: 监督信号稀疏:RL 仅根据最终结果(奖励)来调整整个行为序列,这种方法噪声大且效率低下。 LLM 裁判的脆弱性:使用 LLM 作为奖励模型进行过程监督时,模型很容易找到对抗性样本(如无意义的 dhdhdhdh 字符串)来欺骗裁判,从而获得高分。 认知核心 vs....

October 20, 2025 · 2 min · fisherdaddy

Heygen 创始人 Joshua Xu:在 AI 时代,HeyGen 的构建之道

本文翻译自 HeyGen 创始人 Joshua Xu 在2025 年 10 月 17 日 发布的一篇 HyeGen 团队的工作法则。他发这篇文章正直 HeyGen ARR 达到 1 亿美元之际,距离 2023 年 4 月首次达到 100 万美元仅过去 29 个月。HeyGen 团队在 AI 时代的工作法则,核心总结下来有以下几点: 拥抱不稳定性。主动适应 AI 技术每隔几个月就发生一次的突破性进展 速度即品质。快速行动是为了更快的学习,通过比对手快 5 倍的实验,实现长期的卓越品质和用户价值。 学习速度决定成败。在 AI 时代,学习最快的团队才能获胜。 专注解决真实问题。 想要了解进一步的细节请继续阅读以下我对其原文的中文翻译。 我们如何驾驭浪潮,快速发布,并在不稳定的世界中取胜 我们在构建什么 前言 第一部分:核心理念 第二部分:我们的节奏 第三部分:运营原则 第四部分:团队结构与通用原则 第五部分:核心产品团队 第六部分:增长产品团队 第七部分:沟通协议 第八部分:需要避免的反模式 第九部分:在战争时期取胜 结论 我们的使命:让视觉叙事普及大众。 我们将视频分为两类: 沟通类视频 — 业务更新、教程、访谈、播客、解说视频。这些视频旨在解释、告知或沟通。(最适合基于脚本的编辑。) 电影级视频 — 高制作水平的广告、电影、音乐视频、预告片、高端品牌内容。这些视频旨在感动、启发或娱乐。(最适合时间线编辑。) 我们的重点是让沟通类视频对每个人都触手可及。当我们说每个人时,我们指的是从新手到专业人士的各种技能水平。我们的产品足够简单,任何人都能在几分钟内制作出高质量的视频。 传统的软件开发已经死亡。曾经稳固的基础现在在我们脚下动摇。在AI时代,每隔几个月就有突破性进展,昨天的极限变成了明天的默认配置。 在HeyGen,我们不与这种不稳定性抗争。我们驾驭浪潮。我们整个开发理念都围绕着驾驭AI的进步,而不是去寻找已不复存在的稳定技术基础。 这本书记录了我们如何思考、构建和取胜。它写给每一位HeyGen团队成员——工程师、设计师、产品经理——以及那些想加入我们的人。这就是当基础在我们脚下不断变化时我们如何工作,以及我们如何将这种不稳定性转化为我们的竞争优势。 “快速行动,做到最好。驾驭AI浪潮,拥抱研究的不确定性,提前六个月下注,并构建能够随着模型改进而自我升级的灵活产品,同时不牺牲质量。” 在AI时代,我们在没有稳定技术基础的情况下运作。每隔几个月,AI技术就会发生巨大变化。模型的能力是未知的,并且在迅速变化。 我们正处在一个百年一遇的技术窗口期。在接下来的12个月里,AI代表了我们这一代人的战时机遇。我们有机会打造下一个谷歌或Facebook。机会正在此刻爆发。我们应该将强度调至最高水平。这是每个人加入HeyGen的原因,也是我们在这里的原因。 关键区别: 当我们说“拥抱不稳定性”时,我们指的是底层的AI技术基础——模型、能力、研究突破。我们绝不接受我们的服务正常运行时间、产品质量或用户体验的不稳定性。即使我们脚下的AI技术基础不断变化,我们的产品也必须保持坚如磐石的可靠性。...

October 17, 2025 · 3 min · fisherdaddy

2025 AI 状况报告深度解读:从“超级智能”竞赛到全球博弈,一文看懂 AI 新格局

本文概述了《2025 年人工智能状况报告》的核心内容,该报告是第八次年度发布,旨在追踪人工智能领域的最新进展。报告从研究、产业、政治和安全四个维度,全面分析了过去一年中 AI 领域的重大突破、商业应用、地缘政治动态以及日益凸出的安全挑战。 过去一年,人工智能领域在技术能力、商业化和全球影响力方面都取得了飞速发展。研究层面,具备“先思考后回答”能力的推理模型成为前沿,而中国开源模型的崛起重塑了全球生态。产业层面,AI-first 公司的收入规模已达数百亿美元,算力竞赛推动了对能源和定制芯片的巨大需求,形成了复杂的资本循环。政治层面,中美之间的 AI 竞赛愈演愈烈,美国转向“美国优先”的 AI 出口战略,而中国则加速技术自给自足;同时,“主权 AI”概念兴起,吸引了大量国家级投资。安全层面,AI 带来的风险日益具体,从网络安全到生物风险,各大实验室开始部署前所未有的防护措施,但“对齐欺骗”等深层问题的发现也揭示了现有技术的脆弱性。 概要 研究进展 推理模型的竞赛与挑战: 以 OpenAI 的 o1 和 GPT-5、DeepSeek 的 R1 为代表的推理模型成为焦点,它们通过“思考”过程提升了在代码、科学等复杂领域的表现。 然而,研究表明当前的推理能力提升可能存在“虚幻”成分,模型表现对提示词、解码参数等微小变化高度敏感,且容易在无关信息的干扰下出错。 开源生态的演变: 以 DeepSeek 和阿里巴巴 Qwen 为首的中国开源模型迅速崛起,其性能和多样性吸引了全球开发者,Qwen 在 Hugging Face 上的衍生模型数量已超越 Meta 的 Llama。 OpenAI 时隔数年发布了首个开源模型 gpt-oss,以响应美国政府推动开源领导力的号召。 世界模型与科学发现: AI 从生成固定的视频片段(如 Sora 2)发展到可实时交互的“世界模型”(如 Genie 3),为训练具身智能体提供了强大平台。 AI 在科学发现中扮演了更重要的角色,例如 DeepMind 的 AlphaEvolve 发现了新的矩阵乘法算法,而 MatterGen 等模型则实现了从预测材料性质到直接生成新材料的跨越。 产业动态 商业化与收入规模: AI-first 公司的商业化进程显著加速,头部 16 家公司的年化总收入已达 185 亿美元。企业对 AI 的付费采用率从 2023 年的 5% 飙升至 2025 年的 43....

October 11, 2025 · 2 min · fisherdaddy

又一次,我们没能理解指数增长

本文是 Anthropic AI 研究院 Julian Schrittwieser 所写,其主要观点是当前公众和许多评论员未能认识到人工智能(AI)正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限,而忽略了其能力在极短时间内取得的飞跃式进步。 主要观点 普遍的误解:人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处,从而得出其发展已达瓶颈的错误结论,而忽视了其背后持续且迅速的能力增长趋势。 指数级增长是现实:作者引用多项研究证明,AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线,并且这种趋势没有放缓的迹象。 未来预测:基于当前的发展趋势进行推断,AI 将在未来几年内对经济产生颠覆性影响。作者预测,到 2026 年中,AI 将能自主完成长达 8 小时的工作任务,并在 2026 年底在多个行业中达到人类专家的水平。 关键细节 METR 研究: 一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究,专注于衡量 AI 模型自主完成软件工程任务的能力。 研究结果显示出一条明显的指数增长曲线,能力的“倍增”周期约为 7 个月。 最新的模型如 Grok 4、Opus 4.1 和 GPT-5 的表现不仅验证了这一趋势,甚至略高于预期,已能处理超过 2 小时的任务。 GDPval 评估: 由 OpenAI 发起,旨在评估 AI 在更广泛经济领域中的应用能力,涵盖了 9 个行业的 44 个职业。 评估任务由平均拥有 14 年经验的行业专家提供,总计 1320 项任务。 结果再次显示了类似的增长趋势。值得注意的是,Claude Opus 4....

October 5, 2025 · 1 min · fisherdaddy

强化学习之父 Richard Sutton 开炮:LLM 走偏了,真正的 AI 要从经验中学习

本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习(Reinforcement Learning)先驱 Richard Sutton 的访谈,核心内容围绕强化学习与大语言模型(Large Language Models)在构建人工智能(AI)方面的根本性差异,以及对 AI 未来的展望。 主要观点 强化学习与大语言模型的根本区别:Richard Sutton 认为,强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下,大语言模型 (LLM) 本质上是模仿人类生成的文本,它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。 “经验”是智能的核心:Sutton 强调,真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习,而非模仿。他认为,当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。 “惨痛的教训” (The Bitter Lesson) 的启示:Sutton 指出,AI 发展的历史表明,那些利用海量计算和从经验中学习的通用方法,最终会胜过依赖人类知识构建的系统。他认为,尽管 LLM 规模庞大,但它们严重依赖人类数据,未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。 对 AI 继承的积极展望:Sutton 认为,人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能(如生物)到“设计”智能的重大转变,并认为人类应为此感到自豪,视其为我们的“后代”。 关键细节 强化学习 (RL) 与大语言模型 (LLM) 的对比 世界模型:Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界,而不是理解世界本身。它们预测的是“一个人会说什么”,而不是“世界会发生什么”。 目标与奖励:真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标,因此缺乏学习的根本依据。 学习方式:LLM 从固定的训练数据中学习,这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习,能够不断调整和优化其行为。Sutton 认为,将 LLM 作为 RL 的“先验知识”起点是错误的方法,因为它会使研究者陷入“人类知识”的思维定式中。 “惨痛的教训” (The Bitter Lesson) 与可扩展性 Sutton 在 2019 年的文章《The Bitter Lesson》中指出,利用大规模计算的通用学习方法最终会胜出。 他认为 LLM 依赖于有限的互联网文本数据,而能够直接从经验中获取数据的系统拥有无限的潜力,因此更具可扩展性。最终,后者将超越前者,成为“惨痛的教训”的又一个例证。 对未来的展望 持续学习智能体:未来的通用 AI 应该是一个持续学习的智能体,它拥有四个关键组成部分:策略(policy)、价值函数(value function)、状态表征(state representation)和世界转换模型(transition model)。 AI 继承的必然性:Sutton 提出了一个四步论证来支持 AI 继承的必然性:1) 人类缺乏统一的全球共识;2) 我们终将理解智能的原理;3) AI 的发展不会止步于人类水平;4) 最智能的存在最终会获得资源和权力。 从“复制”到“设计”:他将这一转变视为宇宙演化的一个重要阶段,即从通过繁殖进行“复制”的智能,演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来,并将其视为人类文明的延续和成就。 文章原文 如果你关注人工智能,你一定会被大语言模型(LLM)的惊人能力所震撼。但就在整个行业为生成式AI狂欢时,一位“AI领域的奠基人”却冷静地提出了截然不同的看法。...

September 28, 2025 · 1 min · fisherdaddy

AI 是否是泡沫? • Azeem Azhar

本文来自于 Azeem Azhar 写的一篇文章: Is AI a bubble?。这里也介绍一下 Azeem Azhar,他是《指数时代》畅销书作者、前 BBC 与《经济学人》科技记者,创立了全球知名科技与未来趋势智库 Exponential View。 本文探讨了当前的人工智能(AI)热潮是否构成投资泡沫。作者没有直接给出“是”或“否”的答案,而是建立了一个包含五个关键指标的分析框架,通过与历史上的铁路、电信和互联网(dot-com)泡沫进行比较,来评估当前 genAI 领域的健康状况。 主要观点 作者的核心论点是,尽管 AI 领域的投资规模巨大且增长迅速,但目前它更像一个由强劲需求驱动的“资本密集型繁荣期”,而非一个即将破裂的“泡沫”。当前的繁荣主要由资金实力雄厚的科技巨头(hyperscalers)推动,其估值和收入增长等关键指标尚未达到历史上泡沫破裂前的极端水平。然而,作者也指出了几个潜在的风险点,如果这些风险恶化,繁荣可能会迅速演变成泡沫。 关键细节 作者使用了一个包含五个“仪表盘”的框架来衡量 AI 繁荣的健康度,每个仪表盘都有绿色(健康)、琥珀色(警告)和红色(危险)三个状态。 经济压力 (Economic Strain) - 状态:绿色 指标:投资额占 GDP 的比重。 现状:预计 2025 年全球投入数据中心的资金约 3700 亿美元,其中美国约占 0.9% 的 GDP。 历史对比:这个比例低于 1872 年铁路泡沫时期的 4%,与 1990 年代末的电信泡沫(约 1%)相当。 特殊风险:与铁路或光纤不同,GPU 等 AI 硬件的折旧速度极快(约 3 年),这要求投资在更短时间内获得回报。 行业压力 (Industry Strain) - 状态:琥珀色 指标:资本支出(capex)与行业收入的比率。 现状:genAI 领域的资本支出约为收入的 6 倍(3700 亿美元资本支出 vs. 约 600 亿美元收入),这是三个历史案例中最高的。 历史对比:铁路泡沫时期该比率约为 2 倍,电信泡沫时期约为 4 倍。 收入增长 (Revenue Growth) - 状态:绿色...

September 24, 2025 · 2 min · fisherdaddy

OpenAI CEO Sam Altman 深夜发文,启动史上最酷基建项目,目标“充裕智能”

OpenAI CEO 奥特曼在其个人博客发布最新文章《充裕智能》,算是对今早OpenAI 官宣与英伟达战略合作共同部署至少 10 吉瓦的 NVIDIA 系统(数百万个 GPU)的回应,也是为了进一步融资做好铺垫,当然 10月的 OpenAI 开发者大会发布的产品大概率也有一部分原因是为融资做准备。现在硅谷有一个共识:算力=智力,所以 OpenAI以及马斯克的 xAI 都在疯狂的融资建大型 GPU 集群。 奥特曼的这篇文章有一些核心的信息值得关注: OpenAI 希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。要达到每周能生产一吉瓦这个里程碑,需要从芯片到电力,再到建筑和机器人技术的每一层技术栈的创新。 未来几个月,OpenAI 将会公布一些具体实现计划以及新的合作的伙伴。现在已经有微软、软银、ORACLE 和英伟达了,还得继续引入更多伙伴,继续要钱。 奥特曼认为增加算力是增加收入的直接关键。这句话额意思是 OpenAI 因为算力限制了发布新的产品或模型,进而限制了收入的增加,所以他们计划发布一些计算密集型的新东西。这里说的应该就是 Sora2 和获得IMO、IOI 和 ICPC 金牌的新版推理模型,也可能有类似于谷歌 Genie 3 一样的世界模型的发布。 原文:充裕智能 人工智能服务的使用增长一直令人惊叹;我们预计未来的增长将更加惊人。 随着人工智能变得越来越智能,获取人工智能将成为经济的根本驱动力,并最终可能被我们视为一项基本人权。几乎每个人都希望有更多的人工智能为他们服务。 为了能够提供世界所需——用于运行这些模型的推理算力,以及用于不断改进模型的训练算力——我们正在奠定基础,以便能够大幅扩展我们建设人工智能基础设施的雄心。 如果人工智能继续沿着我们认为的轨迹发展,那么惊人的事情将成为可能。也许用 10 吉瓦的算力,人工智能可以找到治愈癌症的方法。或者用 10 吉瓦的算力,人工智能可以为地球上的每个学生提供定制化的辅导。如果我们的算力有限,我们将不得不选择优先发展哪一个;没有人想做出这种选择,所以让我们开始建设吧。 我们的愿景很简单:我们希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。实现这一目标将极其困难;我们需要数年时间才能达到这个里程碑,并且需要在技术栈的每一层进行创新,从芯片到电力,再到建筑和机器人技术。但我们一直在为此努力,并相信这是可能实现的。在我们看来,这将是有史以来最酷、最重要的基础设施项目。我们特别高兴能将其中大部分建在美国;目前,其他国家在芯片工厂和新能源生产等方面的建设速度比我们快得多,我们希望帮助扭转这一趋势。 在接下来的几个月里,我们将讨论我们的一些计划以及为实现这一目标而合作的伙伴。今年晚些时候,我们将讨论如何为其融资;鉴于增加算力是增加收入的直接关键,我们有一些有趣的新想法。

September 24, 2025 · 1 min · fisherdaddy

红杉资本:AI 认知革命的万亿美金机遇与未来投资地图

本文来自红杉资本的 Konstantine Buhler 分享了关于人工智能的投资理念,以及我们为什么认为这场变革代表着 10 万亿美元的机遇。视频标题为:10 万亿美元的 AI 革命:为什么它比工业革命更宏大?。以下为本视频的核心内容。 在红杉,我们坚信,我们正处在一场人工智能(AI)革命的浪潮之巅。这不仅仅是一次技术更迭,而是一场深刻的变革,其影响力将媲美甚至超越工业革命。我们称之为——“认知革命”。 这听起来可能有点夸张,但我们认为,这场革命背后潜藏着一个高达十万亿美元($10^{13})的巨大机遇。在这篇文章里,我们会像和朋友聊天一样,拆解我们的核心思考:这场革命的本质是什么?钱从哪里来?以及,作为创业者和投资者,我们应该把目光投向何方? 新工业革命:为什么AI是“认知革命”? 让我们先把目光拉回到历史。 工业革命不是一夜之间发生的。我们可以标记出三个关键节点: 1712年:蒸汽机的发明,点燃了革命的火种。 1779年:第一家现代工厂系统诞生,它把生产所需的所有要素整合到同一屋檐下。 1923年:我们今天所熟知的工厂流水线出现。 有趣的是这些节点之间漫长的时间间隔。从蒸汽机到第一家工厂,花了整整67年,而且那家工厂甚至都不是用蒸汽机驱动的,而是水力。而从第一家工厂到现代流水线,更是过去了144年。 为什么花了这么久? 我们认为,答案在于**“专业化势在必行”(Specialization Imperative)**。当一个复杂系统发展到一定规模后,它必须将通用的技术和劳动力,与高度专业化的组件和劳动力结合起来,才能走向成熟。那漫长的144年,正是将蒸汽机这种通用技术,不断专业化、细分化,以适应不同生产需求的过程。 现在,我们正处在“认知革命”的类似阶段: 1999年的GPU(GeForce 256),就像当年的蒸汽机。 2016年左右,第一个能整合所有组件产出AI“代币”(tokens)的AI工厂出现。 那么,问题来了:谁会成为这场认知革命中的洛克菲勒、卡内基和威斯汀豪斯?我们相信,答案就是今天的创业公司,以及那些尚未诞生的创业公司。正是他们在推动着这场伟大的“专业化”进程。 十万亿美金的诱惑:AI如何重塑服务业 聊历史很有趣,但我们毕竟是红杉资本,还是得聊聊真金白银的事。 回想一下云计算转型的初期。当时,全球软件市场规模约为3500亿美元,其中SaaS(软件即服务)仅占微不足道的60亿美元。但后来发生的事情是,SaaS不仅蚕食了传统本地部署软件的份额,更重要的是,它把整个市场的蛋糕做大了,如今整个软件市场规模已超过6500亿美元。 我们相信,同样的故事将在AI领域上演,而且规模会大得多。 这次我们瞄准的,是价值10万亿美元的美国服务业市场。目前,由AI自动化完成的部分可能只有区区200亿美元。这正是那个十万亿美金的机会所在——AI不仅要在这个巨大的蛋糕中切下更大的一块,更要将整个蛋糕本身做得更大。 为了让这个概念更具体,我们内部有一份备忘录,将服务业的各类工作按其市场规模(从业人数 × 年薪中位数)进行了排序。你会发现,像注册护士、软件开发人员、律师这些领域,都拥有极其庞大的市场。而红杉已经在这里布局,比如在医疗领域的Open Evidence和Freed,在软件开发领域的Factory和Reflection,以及在法律领域的Harvey、Crosby和Finch。 我们的创始人唐·瓦伦丁(Don Valentine)总是在强调“市场,市场,市场”的重要性。看看标普500指数的市值图,你会发现,榜单上全是像英伟达这样市值几万亿美元的巨型科技公司。但你找不到柯克兰·埃利斯律师事务所(Kirkland & Ellis),也找不到贝克·蒂莉会计师事务所(Baker Tilly),尽管它们的年收入也高达数十亿美元。 我们相信,认知革命将创造一个机会,让AI赋能的服务型公司成长为独立的、巨大的上市公司,从而彻底改写这份市值排行榜。 正在发生的五大趋势 说完了宏大的叙事,我们来看看当下正在发生的五个具体投资趋势。 1. 杠杆与不确定性:工作范式的转变 我们的工作模式正在从“低杠杆、高确定性”转向“高杠杆、低确定性”。 举个例子,一个销售人员过去需要亲力亲为地管理自己手中的每一个客户。而在AI时代,他可以使用像Rocks这样的工具,部署数百个AI代理,每个代理负责一个客户,7x24小时监控客户动态,寻找新的合作机会。这就带来了百倍甚至千倍的杠杆。当然,AI代理的做事方式和你不一样,可能会犯错,这时就需要人来监督和纠正。你牺牲了一点确定性,但换来了巨大的效率提升。 2. 现实世界的“试金石”:告别学术基准 曾几何时,衡量AI模型好坏的标准是ImageNet这类学术基准。但今天,真正的黄金标准是在真实世界中证明自己。 以AI黑客公司Expo为例,他们没有满足于在学术数据集上跑分,而是直接登上全球最大的白帽黑客平台HackerOne,与全世界的人类黑客同台竞技,寻找真实系统中的漏洞,并最终成为世界第一。这才是真正有说服力的表现。 3. 强化学习走向台前 强化学习(Reinforcement Learning)这个概念在AI圈已经谈了很多年,但在过去一年里,它真正从幕后走到了台前。不仅是顶尖的AI实验室,我们投资的许多公司也从中受益。例如,Reflection公司就利用强化学习,训练出了目前最优秀的开源代码模型之一。 4. AI走进物理世界 AI正在渗入物理世界,这不仅仅指人形机器人。更重要的是,AI开始被用于设计和制造硬件、优化物理流程。Nominal公司就是个很好的例子,他们用AI加速硬件制造流程,并且在产品部署后,继续用AI进行质量保证。 5. 算力:新的生产函数 未来企业的核心生产力指标将是**“每知识工作者的算力消耗”(flops per knowledge worker)。我们对被投公司的调查显示,他们预计每个知识工作者对算力的消耗至少会增加10倍**。乐观地看,这个数字可能是1000倍甚至10000倍。因为未来的知识工作者可能会同时指挥着成百上千个AI代理。这对于提供算力、保护算力以及利用算力提升效率的公司来说,都是巨大的利好。 未来18个月的投资指南:五大关键主题 着眼未来,我们正在积极关注并投资以下五个主题: 1. 持久化记忆(Persistent Memory) 这是一个亟待攻克的关键难题。它包含两层意思:...

September 10, 2025 · 1 min · fisherdaddy

阿里 Qwen 团队发布首个万亿参数大模型 Qwen3-Max-Preview(Instruct),但不开源!!

阿里发布了 Qwen 系列首个万亿参数的模型:Qwen3-Max-Preview(Instruct),模型参数超 1 万亿,非思考模型。目前可以在 qwen chat 或 api 上接入来体验,基准测试显示,其性能优于 Qwen3-235B-A22B-2507。内部测试和早期用户反馈证实:性能更强,知识更广,在对话、Agent 任务和指令遵循方面表现更佳。但不开源!! 从 benchmark 上来看,作为一个非思考模型能力算是很强了,官方的这个图标上没有对比目前的顶级闭源模型的对比,可能是因为目前的顶级模型都是深度思考模型。我找了下在同一指标下 gpt-5 和 gemini 2.5 pro 的变现。 在 AIME 25(美国数学竞赛)指标上,Qwen3-Max-Preview(Instruct) 得分 80.6% 。非思考模式且不用工具的情况下的 gpt-5 仅得分 61.9 %,若开启思考则能达到 94.6%。对比思考模型,gemini 2.5 pro 和 DeepSeek r1 分别是 88% 和 87.5%。 在 LiveCodeBench(编程)指标上,Qwen3-Max-Preview(Instruct) 得分 57.6% 。对比思考模型,gemini 2.5 pro 为 69%。 最后,阿里这个万亿参数模型没有开源挺令人意外的,现在的开源更像是一种宣发策略,通过开源让社区自传播,既省去了推广费,又有机会复刻年初 DeepSeek R1 的爆火盛况。如果重投入开发出一个模型却没人使用,这个模型的收益就几乎为零了。反观国内的两个一直闭源的小虎:Kimi 和 智谱,他们今年全是走的开源策略,特别是 Kimi,大大减少 C 端投放,把投入重点放到模型研发上,至于推广靠开源来实现,比如 K2 的火爆也是这个策略带来的收益。当然,Qwen这次的逻辑有可能是先放出指标,引流到自家产品上,等过段时间再开源,抑或是走了部分模型开源,部分模型闭源的策略。 最后的最后,还是用两个经典的编程题目来看一下 Qwen3-Max-Preview(Instruct) 的实际能力:生成一个鹈鹕骑车的 svg 和 生成一只青蛙演奏萨克斯的 svg。从结果上看,这个模型的编码能力确实要优于 Qwen3-235B-A22B-2507 和 Qwen3-Coder-480B-A35B-Instruct。

September 6, 2025 · 1 min · fisherdaddy