本文由 Foundation Capital 合伙人 Ashu Garg 撰写,回顾了 2024年科技界的里程碑,并探讨了 2025 年的前景。核心内容包括:

  1. AI 成本与普及
  • 从 2021 年 GPT-3 的每百万标记 $60 的成本,到 2024 年 Meta 的 Llama 3.2 降至 $0.06,这一成本下降速度创下历史记录。
  • AI 已渗透至多个行业,其市场影响力占 S&P 500 市值的约一半。
  1. 技术进步与系统架构
  • AI 模型的进步正在转向推理能力,例如 OpenAI 的 o3 模型通过生成详细的推理路径,在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。
  • 推理能力的提升需要更高的计算成本,但效率改进将推动未来发展。
  • 未来的竞争将集中于系统架构,而非模型规模。
  1. 商业模式与市场扩展
  • AI 正在从传统的软件预算转向更大的服务市场,其目标是直接完成工作,而非仅提供工具。
  • 成果导向的定价模式正在兴起,挑战传统软件公司的收入模式。
  1. 硬件市场的变化
  • 预训练的高吞吐量需求使 NVIDIA 占据主导地位,但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。
  • 多家科技巨头(如苹果、微软、谷歌等)和初创公司正在开发定制芯片。
  1. AI 原生平台与用户体验
  • AI 原生平台正在重新定义企业软件,如销售平台从文本记录转向多模态处理。
  • 新的用户界面将支持更复杂的 AI 交互,如 OpenAI 的 Canvas 和 Google’s NotebookLM。
  1. 搜索与信息获取的变革
  • AI 原生搜索(如 ChatGPT 和 Perplexity)正在取代传统搜索引擎,提供直接的综合答案。
  • Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。
  1. 开源与多模型战略
  • Meta 的 Llama 开源模型正在成为行业标准,降低了 AI 开发的进入门槛。
  • 企业正在采用多模型战略,避免对单一模型的依赖。
  1. 自动驾驶与社会信任
  • Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。
  • 自动驾驶的普及将带来安全、生产力和城市设计的改善。
  1. 初创公司的机遇
  • 开源模型和推理策略的进步使小型团队能够与大公司竞争,特别是在垂直领域和“最后一公里”应用中。
  1. 人类创造力与 AI 的未来
  • 技术限制正在减少,AI 的未来发展将更多依赖于人类的创造力和想象力。

原文

对我来说,2024年科技领域的故事可以用一个数字来概括:1000倍。

这是机器智能成本在短短三年内下降的倍数——从2021年 GPT-3 的每百万 Token 60 美元,降至 Meta 的 Llama 3.2 的 0.06 美元。据我所知,这是人类历史上任何技术能力普及速度最快的一次。智能,曾经是人类最宝贵和稀缺的资源,正变得无处不在,丰富且几乎免费。

这一进展重新点燃了许多人认为已被 2022 年经济下行扑灭的技术乐观主义。市场也注意到了这一点:人工智能(AI) 现在约占标准普尔 500 指数市值的一半,其影响力远远超出 “科技七巨头”,深入到工业和公用事业等多个领域。

更令人瞩目的是,我们已经如此迅速地适应了 AI 不断增强的能力。两年前还看似不可能完成的任务,比如复杂的推理、端到端的任务执行,以及在最先进的基准测试中取得优异成绩,现在已经变得稀松平常。“AI” 的定义不断拓展,即便我们对如何实现它的理解也在不断发展 (下文会详细介绍)。

作为一名在硅谷的初创公司投资和支持领域耕耘数十载的人,看到这个地区打破了 “硅谷已死” 的预言,我感到非常欣慰。事实证明,“硅谷之死” 的论调大错特错。相反,硅谷作为全球 AI 的神经中枢,比以往任何时候都更加强大。我预计,在 2025 年,领先的 AI 实验室和初创企业将进一步在此聚集。

在整个 2024 年,我和我的团队一直在记录和预测这些转变——从 “软件即服务” 发展到 “服务即软件”,以及 “复合 AI 系统” 和 “AI 智能体系统” 的兴起,以及 Transformer 模型替代方案的涌现

展望 2025 年,我预计会出现以下十大发展趋势:

正如我上个月记录的那样,人们普遍认为,规模化的预训练已经遇到了三堵墙:数据、算力/能源和模型架构。但是,在 2025 年,这些障碍不会限制 AI 的发展,反而会引导它走向新的前沿领域。

其中一个最有希望的前沿领域是 “推理”——模型不再只是回忆训练中的模式,而是在推理过程中积极解决问题。以 OpenAI 的 o3 模型为例,它不会直接给出答案,而是会针对每个任务生成详细的推理路径,就像数学家有条不紊地推导证明过程一样。

公布的结果令人瞩目:o3 在 ARC-AGI 挑战赛中获得了 87.5% 的成绩,在 FrontierMath (由菲尔兹奖获得者设计的专业数学测试,之前的模型最高分为 2%) 中获得了 25% 的成绩。为了便于理解这一飞跃:ARC-AGI 的性能从 GPT-3 的 0% 提升到 GPT-4 的 5% 花了四年时间。该奖项的创始人和资深 AI 研究员 François Chollet 认为,o3 代表了 AI 处理全新场景能力的根本性突破。

这种推理策略是有代价的:o3 性能最高的版本比基准版本需要多 172 倍的算力,每次回答的成本超过 3400 美元。但是,如果过去三年教会了我们什么,那就是这些成本会迅速下降。随着更高效的训练方法和更精细的推理能力的融合,2025 年 AI 的发展速度可能会超过今年的惊人增长。

这种对测试时算力的新思考方式引出了我的下一个观点:未来不属于那些拥有最大模型的人,而属于那些能构建性能最佳的 AI系统的人。

一个孤立的 AI 模型只是一堆磁盘上的二进制数据。即使是最简单的输出,也需要至少三个组件协同工作:一个提示词,一个生成输出的采样方法,以及一个评估结果的验证策略。我们所感知的 “智能” 和 “推理” 源于这些元素与外部工具和 API 的巧妙配合。当我们惊叹于 o3 这样的模型解决问题的能力时,我们实际上是在观察多个专业组件之间的精心协作:一个负责生成可能的解决方案,另一个负责验证它们,还有一些负责改进和优化结果。

过去四年,大家都在竞相扩大模型规模。而 2025 年,将会由那些精通系统级架构的研究人员和开发者主导。我们看到的突破将不仅来自训练更大的模型,还将来自寻找更优雅、更有效的方法,将多个较小的模型和软件组件组合起来。这种从 “以模型为中心” 到 “以系统为中心” 的思维转变,将开始削弱行业巨头的资本优势,并使那些能够快速行动和实验的初创公司受益。

2025 年,随着 AI 公司将目光投向规模更大的服务市场 (其潜在市场规模 (TAM) 扩大了约 10 倍),它们将摆脱传统的软件预算束缚。它们将通过销售实际完成的工作,而不仅仅是提供工作流程支持来实现增长。

这种转向基于结果的定价,给老牌企业带来了经典的创新者窘境。它们的收入模式、销售激励和市场进入 (GTM) 策略都针对销售许可和席位进行了优化。这为那些构建 AI 原生商业模式的初创公司创造了巨大的机会。

与此同时,AI 正在颠覆软件行业的一个核心假设,即规模化的边际成本接近于零。目前,每提高一点模型性能,都需要指数级增长的资源。一个 90% 时间都正确的聊天机器人可能每个用户花费 10 美元,但考虑到背后的算力成本,要实现 99.9% 的准确率,每个用户的成本可能高达 1000 美元。

我们已经可以看到,OpenAI 的最新定价方案中出现了这种结构。其专业版计划的月费为 200 美元,并且有消息称,他们正在考虑为企业用户推出每月2000 美元的套餐。虽然与最初的每月 20 美元相比,这些价格似乎很高,但与人类专家的费用相比,它们仍然算是适中的。

展望未来,随着像 o3 这样的模型将推理时间延长到 “数小时、数天甚至数周”,订阅模式本身可能会被淘汰——这为 AI 原生初创公司相对于那些固守传统定价模式的现有企业创造了又一个优势。

2024 年,AI 硬件的故事很大程度上是 NVIDIA 的故事——它们在 AI 芯片领域的近乎垄断地位,使该公司的估值达到了 3.3 万亿美元。但 2025 年将会出现新的变化,其驱动力是日益激烈的竞争,以及 AI 系统消耗算力资源方式的转变。

巩固 NVIDIA 统治地位的挑战是预训练,这本质上是一个吞吐量问题。它需要大量的芯片集群以最大容量运行数月,并行处理海量数据。NVIDIA 通过构建一个为这些集中、可预测的工作负载而优化的硬件和软件集成堆栈而脱颖而出。然而,推理则带来了一系列不同的挑战:工作负载是突发且不可预测的,延迟比原始吞吐量更重要,而且计算需要在边缘进行,而不是在中心化数据中心。

2025 年的 AI 基础设施格局可能会变得更加分散和异构,其优化方向将与当今的大型 GPU 集群不同。虽然 NVIDIA 并未停滞不前,但竞争对手 (包括科技巨头 (如苹果、AMD、微软、Meta、谷歌、亚马逊和特斯拉等) 设计的定制芯片,以及创新型初创公司) 仍有巨大的机会。问题不在于 NVIDIA 是否会继续保持主要参与者的地位 (它们肯定会),而在于它们是否还能保持近乎垄断的地位。

2025 年,我们将见证新一代企业软件巨头的崛起。它们不是那些添加了 AI 功能的传统系统,而是重新构想软件工作方式的 AI 原生平台。企业在 AI 软件上的支出已经跃升至 46 亿美元 (2023 年为 6 亿美元),而这仅仅是开始,因为我们的 “服务即软件” 模式正在逐步确立。

以客户关系管理 (CRM) 领域为例,它一直是企业软件中最根深蒂固的市场之一。如今的记录系统,如 Salesforce、Hubspot 等,都是围绕文本格式的结构化数据表示构建的。而一个 AI 原生的销售平台不仅仅是在这个老旧的模型上添加功能,它将核心系统重新设计为一个多模态 “大脑”,能够处理文本、图像、语音和视频,并据此采取行动。

当底层技术发生如此深刻的转变时,老牌企业的渠道优势 (通常是初创公司难以逾越的障碍) 就不再那么重要了。销售团队之所以采用 AI 原生平台,不是因为它们只是略微好一点,而是因为它们消除了整个类别的工作——从线索研究到电话准备,再到辅助材料的制作。

虽然云计算和移动互联网分别催生了大约 20 家收入超过 10 亿美元的初创公司,但这些公司都必须找到狭窄的垂直细分市场才能展开竞争。如今,AI 的进步使初创公司能够对几乎所有主要类别的企业软件发起正面冲击,从销售和营销自动化到企业资源计划 (ERP) 和财务规划。任何基于结构化数据、以文本为主的传统软件都可能过时。

从零开始,用 AI 原生架构重建这些产品的机会,是企业软件历史上最大的价值创造机会之一。

到 2025 年底,定义早期 AI 产品的简单聊天框,将会像命令行一样过时。我们将看到针对不同类型工作而出现的专用用户界面 (UI):用于监控 AI 流程的交互式仪表板、使 AI 推理过程透明且可调试的可视化工具,以及用于创造性协作的直观界面。这些新界面将表明,AI 不仅仅是一个来回问答的系统,更是一个复杂的工具,我们需要以更高级的方式引导、监控并与之协作。

这种演变的早期迹象已经出现。Anthropic 的 Artifacts 和 OpenAI 的 Canvas 将 AI 输出视为迭代的起点,而不是最终产品;而谷歌的 NotebookLM 则提供无缝融合文本和语音的多模态交互方式。

随着模型能力的逐渐趋同,用户体验 (UX) 可能会成为关键的差异化因素——不只是表面的设计选择,而是更深层次的,即人类如何与 AI 有效合作并利用其能力。这个领域的赢家不仅会构建强大的模型,还会构建能够让人们更容易访问和控制 AI 能力的界面和体验。

谷歌著名的 “10 个蓝色链接” 定义了我们在线访问信息的方式,并塑造了现代网络的架构。但在 2025 年,我们将见证这个延续数十年的模式开始走向终结,因为 AI 原生的信息访问方式将使传统的搜索结果过时。

这种转变已经开始。像 Perplexity 和 ChatGPT (最近增加了网络搜索功能) 这样的平台表明,直接、综合的答案比滚动浏览充斥着广告的链接列表要好得多。更重要的是,它们正在培养新一代的互联网用户,他们本能地倾向于 “聊天” 而不是 “谷歌” 来寻找答案。

Meta 如果进入搜索领域,可能会加速谷歌的衰落。它们的社交关系图提供了谷歌索引所缺乏的东西:对信息如何在人类网络中流动的实时理解。据估计,Meta 拥有的数据比公共互联网上的数据多100 倍——前提是它们能够遵守使用这些数据的复杂合规要求。Meta 的搜索产品可以将传统的网络内容、社交信号和 AI 合成技术结合起来,从而使谷歌当前的产品显得静态且脱节。

谷歌的广告收入是构建现代网络的经济引擎。但是,在保护这部分收入的同时,又要推出替代品,这可能是不可能完成的任务。美国司法部的反垄断审查,包括对强制搜索索引许可的讨论,进一步增加了谷歌在新 AI 时代利用现有优势的难度。

科技史上不乏先驱者——雅虎、网景、MySpace……它们都曾推动了革命,但未能抓住由此产生的价值。在 2025 年,OpenAI 可能会加入它们的行列。尽管像 o3 这样的模型取得了令人瞩目的技术成就,但其最近1570 亿美元的估值似乎越来越像是对一个日益竞争激烈的市场永久主导地位的定价。

谷歌的 Gemini 已经在关键行业基准测试中超越了 GPT-4,而 Meta 的开源策略以一半的成本提供了可与之媲美的能力。当 Llama 3 为 Facebook、Instagram 和 WhatsApp 上覆盖 40 亿用户的免费 AI 功能提供支持时,ChatGPT 的 1000 万付费用户看起来就不像是市场主导地位,而更像是脆弱的早期领先地位。

开源领域的进展同样令人瞩目——这些模型现在在几乎所有重要的基准测试中都与它们的封闭式竞争对手相匹配。仅举一个例子,Llama 3.1 405B 在 MMLU 上的表现仅略微落后于 Claude 3.5 Sonnet 和 GPT-4 Turbo。

企业支出模式也印证了这一点。来自 Ramp 的数据显示,今年 OpenAI 在其平台上的客户中 AI 支出份额已从 90% 降至 76%。企业正在采用多模型策略,并构建基础设施以便在不同提供商之间轻松切换。事实证明,仅靠模型开发的卓越性并不能形成客户粘性。

2025 年需要关注的其他动态:OpenAI 计划作为一家营利性公司进行重组,以及它与微软之间的关系。根据他们目前的协议,微软在实现通用人工智能 (AGI) 之前拥有 OpenAI 的全部知识产权。这引发了一个有趣的激励问题:OpenAI 何时会宣布他们已经达到了这个里程碑,尤其是在该公司声明的使命是追求 AGI 高于一切的情况下。

2025 年,Meta 的 Llama 架构将成为 AI 领域的 Linux——它将定义 AI 系统的构建和部署方式。基于 Llama 进行构建,开发人员可以利用围绕它而优化的整个生态系统,从硬件和开发工具,到训练和部署流程。

这标志着与 2022-2023 年 AI 开发模式的决裂。当时,进入模型领域意味着仅为了进行初始训练就需要筹集数亿美元。问题不是“我们可以采取什么创新方法?”,而是 “我们能否获得一个拥有 10 万个 GPU 的集群?” 在 2025 年,随着开源和模型蒸馏技术的不断进步,小型团队将越来越多地与大型实验室展开竞争,尤其是在特定的垂直领域和 “最后一公里” 用例中,在这些领域,专业知识比规模更重要。

在 2025 年,自动驾驶汽车将通过使机器智能变得可见且无可争议的方式,来改变公众对 AI 的信任。虽然我们可以讨论聊天机器人的能力,但我们无法质疑一个比人类驾驶更安全的 AI 汽车。这种日常生活中切实可见的 AI 社会效益,将比任何模型突破都更能赢得公众对这项技术的信任。

截至 2024 年年中,Waymo 的自动驾驶出租车已经记录了超过 2200 万英里的自动驾驶里程,其中包括在旧金山的 590 万英里,在那里,它们的白色捷豹 SUV 已经成为城市景观的一部分。上周末,我看到一辆车在拥挤的停车场中行驶——这种情况即使是最有经验的人类驾驶员也会感到紧张。

看到我们的无人驾驶未来不断实现,以及它对安全、可访问性、城市设计、人类生产力和整体生活质量带来的所有积极影响,是我在 2025 年最期待的发展之一。

2024 年,AI 生态系统对初创公司变得更加友好——开源模型与封闭模型相媲美,小型模型取得了快速进展,推理策略比单纯的扩大规模更重要,企业也开始拥抱 AI 原生解决方案。2025 年,这一趋势将会加速,系统将超越模型,界面将超越聊天框的限制,初创公司将对行业巨头发起正面冲击。

我们越深入地探索这场 AI 革命,我就越不确定什么是可能的,什么是不可能的。这正是这一刻如此令人兴奋的原因——限制不再于 AI 本身的能力,而在于开发者们能够想象用它做什么。我们正在从一个由技术壁垒定义的时代,过渡到一个仅受人类创造力和雄心约束的时代。

对于我们这些职业生涯都致力于支持早期创业者的从业者来说,现在是进入科技领域的最佳时机。

展望 2025 ✨