本文讨论了生成式 AI 领域的最新进展，特别是从快速响应（“System 1”）向推理能力（“System 2”）的转变。这一转变标志着 AI 系统在推理和认知操作方面的能力显著提升，开启了一个新的“代理性应用”时代。文章还探讨了生成式 AI 市场的现状及未来趋势，特别是 OpenAI 推出的 o1 模型如何通过推理时间计算实现更强的推理能力。此外，作者分析了 AI 市场的各个层次（基础设施、模型、开发工具和应用层）的竞争格局，指出应用层的机会最大，特别是在构建定制的认知架构以应对现实世界中的复杂任务。

市场结构的稳定：生成式 AI 市场的基础层已经趋于稳定，主要由几大巨头主导，如 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。尽管竞争激烈，但市场结构逐渐固化，预示着更便宜且更强大的预测能力即将到来。
推理层的崛起：随着基础层的稳定，AI 研究的重点转向推理层，即“System 2”思维。这种思维模式类似于 AlphaGo 的运作方式，即通过推理和模拟多个未来场景来做出更有深度的决策。
OpenAI 的 o1 模型：2024 年最重要的模型更新是 OpenAI 的 o1 模型（代号 Strawberry），这是第一个具有真正推理能力的模型。它通过推理时间计算实现了更复杂的推理能力，特别是在逻辑和数学等领域表现突出。
推理的挑战：与 AlphaGo 不同，语言模型在推理时难以构建明确的价值函数，因为许多任务（如写作或制定旅行计划）没有明确的评分标准。这使得推理在开放性任务中更加困难。
系统 1 与系统 2 思维：系统 1 思维是基于模式匹配的快速响应，而系统 2 思维则需要模型在推理时停下来思考，生成多种可能性并评估其结果。这种深度推理对于复杂任务（如数学或生物学突破）至关重要。
推理时间计算的扩展：o1 模型揭示了推理时间计算的新扩展规律，即给模型更多的推理时间，它的表现会显著提升。这一发现将推动从大规模预训练集群向动态推理云的转变。
应用层的机会：尽管基础层和模型层由巨头主导，但应用层仍有巨大的机会，特别是在构建能够应对现实世界复杂任务的定制认知架构方面。许多 AI 公司已经开始在各个行业中开发代理性应用，如 Harvey（AI 律师）、Factory（AI 软件工程师）和 Sierra（AI 客户支持）。
服务即软件的转变：生成式 AI 正在推动从软件即服务（SaaS）向服务即软件的转变。AI 公司通过代理性应用提供具体的工作成果，而不是简单的软件工具，从而瞄准了数万亿美元的服务市场。
未来展望：未来的 AI 发展将继续围绕推理和推理时间计算展开，特别是在复杂的现实世界任务中。多代理系统可能会成为一种新趋势，帮助 AI 实现更复杂的任务协作。最终，AI 可能会达到类似 AlphaGo 的“Move 37”时刻，即展示出超越人类的创新能力。

生成式 AI 的 Act o1

2024年10月9日发布

自主推理时代的来临

在生成式 AI 革命的两年发展中，研究正在将领域从“快速反应”——预训练模型的迅速响应，推进到“深度推理”——在推理时间内进行思考的阶段。这种演变正在解锁一批具有自主能力的新应用。

在我们发布文章“生成式 AI：一个创新世界”两周年之际，AI 生态系统已经焕然一新，我们也对未来的发展进行了展望。

生成式 AI 市场的基础层正逐步趋于稳定，形成以 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind 等大规模参与者及其联盟为中心的平衡状态。只有那些拥有经济引擎和充足资本的巨头仍在市场中竞争。尽管竞争远未结束（而且随着博弈论式的竞争不断加剧），市场结构逐渐稳固，我们也将看到预测 Token 成本的不断下降与供给的不断增加。

随着大语言模型（LLM）市场结构的稳定，新的前沿领域已然显现。研究重心正逐步转向推理层的开发和扩展，即所谓的“系统2”思维（System 2）。这一层受到 AlphaGo 等模型的启发，旨在使 AI 系统在推理时具备深思熟虑的推理、问题解决和认知操作能力，超越简单的模式匹配。新的认知架构和用户界面正在塑造这些推理能力如何与用户交互。

这对于 AI 市场中的创业者意味着什么？对于现有的软件公司又意味着什么？作为投资者，我们认为生成式 AI 堆栈中最具投资潜力的层次在哪里？

在我们的最新文章中，我们将探讨基础 LLM 层的整合如何为扩展这些更高层次的推理和自主能力奠定了基础，并讨论具有新型认知架构和用户界面的下一代“杀手级应用”。

永恒的“草莓田”

2024年最重要的模型更新属于 OpenAI 的 o1，曾用名 Q*，也被称为“Strawberry”（草莓）。这不仅重申了 OpenAI 在模型质量排行榜上的地位，更是对现有 AI 架构的重大提升。具体来说，这是第一个真正具备通用推理能力的模型，通过推理时的计算资源来实现。

这代表了什么呢？预训练模型通过“训练时间计算”在大量数据上进行下一个 Token 预测。尽管推理能力随着规模扩大而逐步显现，但能力仍然有限。那么，假如我们能让模型在推理时更加直接地进行思考呢？这正是“Strawberry”尝试达成的目标。所谓“推理时间计算”即是在模型生成回答前暂停思考，这种推理过程需要在推理时间上投入更多计算资源（因此称为“推理时间计算”）。这里的“暂停思考”就是推理的体现。

AlphaGo x 大语言模型（LLMs）

当模型“暂停思考”时，它实际上在做什么？

让我们回到2016年3月的首尔，深度学习历史上标志性的一刻：AlphaGo 对决围棋高手李世石。这不仅是一场人机对决，而是 AI 展现出超越模式模仿的“思考”能力的瞬间。

AlphaGo 与之前的游戏 AI 系统（如深蓝）有何不同？与大语言模型类似，AlphaGo 首先通过大约3000万步的围棋数据进行预训练，模仿人类专家的表现。但不同之处在于，AlphaGo 在推理时会花时间搜索并模拟一系列未来情景，评估这些情景的预期价值并选择最优的结果。AlphaGo 的表现随推理时间的增加而提高。若不给予推理时间计算，模型无法战胜顶尖人类玩家，但推理时间越长，AlphaGo 表现越佳，最终超越人类高手。

对于 LLM 来说，要复制 AlphaGo 的思维过程面临的难题是构建价值函数，即用什么标准来评估模型的回答。如果是下围棋，可以模拟整个对局直到结束，以评估下一步的预期价值；若是编程，可直接测试代码是否有效。然而，若要为一篇文章草稿、旅行行程或文档摘要评分，则较为困难。这也解释了为什么 Strawberry 在逻辑性强的领域（如编程、数学、科学）表现优异，而在开放性强、结构化较少的领域（如写作）则稍显不足。

虽然“Strawberry”的实际实现仍属机密，但其关键理念包括围绕模型生成的思维链进行强化学习。对这些思维链的审查表明该模型正展现出类似人类思

考的特性。例如，o1 已显示出在遇到瓶颈时回溯的能力，这是一种随推理时间延长而自然产生的特性。它还具备以类似人类的方式思考问题的能力（如通过球体可视化点以解决几何问题），并能够以全新的方式解决问题（如在编程竞赛中提出非传统的解法）。

推理时间计算的创新不断涌现（如奖励函数的新计算方法、缩小生成器和验证器之间差距的新策略），各研究团队正努力提升模型的推理能力。换句话说，深度强化学习再度走红，正开启一个新的推理层。

系统1 vs 系统2思维

从预训练的直觉反应（“系统1”）到更深入的、有意的推理（“系统2”）是 AI 的新前沿。仅仅让模型“知晓”是不够的，它们还需要在实时决策中暂停、评估并进行推理。

可以将预训练视为“系统1”层。无论是基于数百万围棋步法的数据（如 AlphaGo）还是互联网海量文本的大语言模型，预训练模型的工作是模仿模式。然而，模仿虽强，却并非真正的推理。它无法应对复杂的新情况，尤其是超出样本范围的场景。

这正是系统2思维的核心所在，也是当前 AI 研究的重点。当模型“暂停思考”时，它不再只是生成已学习的模式或基于过往数据做预测，而是生成一系列可能性，评估潜在结果并依据推理做出决策。

对于许多任务，系统1已经足够。正如 Noam Brown 在《Training Data》播客中提到的那样，对于回答不丹首都这类问题，快速的模式匹配已绰绰有余。

然而，面对更复杂的问题（如数学或生物学的突破），快速的直觉反应不再足够。真正的突破需要深思熟虑、创造性的问题解决能力和时间。同样地，AI 要解决最具挑战性和深远意义的问题，就必须超越快速的样本内反应，专注于深入的推理。

新的扩展法则：推理竞赛全面展开

根据 OpenAI o1 论文的洞见，一项新的扩展计算法则正在成形。

预训练大语言模型（LLM）已经遵循一个被广泛认可的扩展法则：在模型预训练上投入更多计算资源和数据，模型的性能会更强。而 o1 论文则揭示了在推理阶段的新扩展维度：模型的推理时间（即测试阶段）的计算资源投入越多，它的推理表现越强。

来源：OpenAI o1技术报告

那么，当模型能够连续思考数小时、数天甚至数十年时，又会发生什么？我们是否能够借此解决黎曼猜想？我们是否能够解答阿西莫夫的“终极问题”？

这种转变将带领我们从依赖于大规模预训练集群，走向依托动态扩展计算资源的推理云（Inference Cloud）——一种能够根据任务的复杂性动态调整计算的环境。

一个模型统治所有领域？

当 OpenAI、Anthropic、Google 和 Meta 扩展它们的推理层并不断开发出更强大的推理系统时，我们是否会面临一个通用模型主导所有领域的局面？

在生成式 AI 市场诞生之初，曾有一个假设认为某个模型公司会变得如此强大，以至于吞并所有其他应用。然而，这一预测已被证明在两个方面是错误的。

首先，模型层的竞争依然异常激烈，各大公司不断更新迭代，争夺当前技术的最高水准（SOTA）。虽然有人猜测可能会通过跨领域自学习实现模型的持续自我优化并带来突破，但目前尚未有任何证据表明这种情况发生。实际上，模型层竞争激烈，如刀光剑影。自上次开发者日以来，GPT-4 的 Token 价格已下降了 98%。

其次，模型层在应用层的实际突破应用依然稀少，除 ChatGPT 外几乎未能成为现实的产品。现实世界的复杂性令许多优秀的研究人员不愿投入过多精力去适配每一个垂直领域的工作流程。对于他们而言，止步于提供 API 接口，并让开发者解决应用层的现实需求，更加经济合理。这对应用层的发展无疑是个利好消息。

复杂的现实世界：定制认知架构

科学家和软件工程师在实现目标时的思维方式有着显著差异，即使是不同公司的软件工程师，工作方法和步骤也可能完全不同。

尽管研究实验室不断推进横向通用推理技术，我们仍然需要具备领域或应用特定推理的 AI 系统，以更好地服务于实际应用。现实世界的复杂性要求针对具体领域的定制化推理，而这种能力并不容易通过通用模型高效编码实现。

应用层市场分析

如果你想在 AI 领域创业，应该选择技术栈的哪一层呢？若选择在基础设施层竞争，挑战将非常艰巨，因为击败 NVIDIA 和那些超大规模数据中心非常困难；若选择模型层竞争，超越 OpenAI 和 Meta 的难度更高。那么，是否可以在应用层中找到机会呢？相比之下，战胜传统企业 IT 和全球系统集成商可能是更为可行的方向。

尽管基础模型极具创新性，但其复杂性和不完善性为应用层提供了许多机会。许多主流企业难以接受“黑盒式”模型的不可解释性、生成内容的偏差以及笨拙的工作流；消费者面对一个空白的提示框时，也常常不知如何使用。这些问题正为应用层公司创造了良好的机会。

两年前，许多应用层公司被认为只是简单地为 GPT-3 加了一个“包装”。而如今，这些“包装”逐渐演变成了“认知架构”，成为创建持久价值的一种有效方法。

应用层 AI 公司不只是基础模型上的用户界面。它们拥有复杂的认知架构，通常包含多个基础模型的路由机制、用于搜索和生成内容的向量数据库或图数据库、用于合规的保护机制，以及模仿人类推理流程的应用逻辑。

服务即软件

在云计算转型中，软件即服务 (SaaS) 模式推动了软件公司转型为云服务提供商，创造了价值高达 3500 亿美元的市场。而随着 AI 技术的进步，代理推理使得 AI 的转型呈现出服务即软件的趋势。这意味着软件公司将更多的劳动转化为软件解决方案，从而使得市场潜力不仅限于软件，而是扩展到价值数万亿美元的服务市场。

例如，Sierra 是一个典型案例。B2C 公司将 Sierra 嵌入到他们的网站上，用于与客户互动，目标是解决客户问题。Sierra 的收费方式不是按“席位”收费，而是按每次成功解决问题收费，即按效果付费。Sierra 完成任务，即获得相应报酬。

这种模式成为了许多 AI 公司的愿景。Sierra 的成功得益于其有一种灵活的失败模式，即当 AI 无法解决问题时，可以将问题升级到人工客服。这一模式正在很多公司中推广，例如 GitHub Copilot 就是从协同模式（人为干预）开始，逐渐过渡到全自动模式（无人为干预）。

新一批自主型应用

伴随着生成式 AI 推理能力的提高，一批具有自主决策能力的应用程序正在逐渐出现。

这些应用层公司的运作方式与传统的云公司有所不同：

云计算公司以软件盈利为目标，而 AI 公司则瞄准服务市场。
云公司按“每席位”收费，而 AI 公司按成果或效果收费。
云公司倾向于自下而上的推广，低门槛便于普及，而 AI 公司则更多采取自上而下的推广模式，注重高接触和高信任的交付方式。

在知识经济的多个领域，新一代的自主型应用正逐渐涌现，以下为一些典型案例：

Harvey：AI 律师
Glean：AI 工作助手
Factory：AI 软件工程师
Abridge：AI 医疗记录员
XBOW：AI 渗透测试专家
Sierra：AI 客户支持代理

通过大幅降低这些服务的边际成本——与推理成本的快速下降相呼应，这些自主型应用正快速扩展并创造出新的市场机会。

例如，XBOW 正在打造一个 AI “渗透测试专家”。渗透测试是一种用于评估计算机系统安全性的模拟攻击。过去，由于人工渗透测试成本较高，企业仅在合规等必要情况下进行测试。而 XBOW 现正通过最新的推理大语言模型，实现自动化渗透测试，并达到顶尖人工渗透测试的效果。这将极大地拓展渗透测试市场，使各类企业能够进行持续渗透测试。

对 SaaS 生态系统的影响

今年早些时候，我们与有限合伙人 (LP) 进行了交流，他们最关心的问题是：“AI 转型是否会影响到你们现有的云计算公司？”

最初，我们的默认回答是“不太可能”。初创公司和大型企业的经典竞争更像是一场竞速：初创公司聚焦于渠道和分销，而巨头则专注于产品开发。拥有创新产品的年轻公司，能否在巨头推出类似产品前快速获得大量用户？考虑到 AI 的核心力量来源于基础模型，我们的默认假设是：大公司不太会受到影响。基础模型对它们和初创公司都同样开放，且它们在数据积累和分销方面已有显著优势。对于初创公司而言，真正的机会在于瞄准可以自动化的任务和流程，而不是直接取代现有的传统软件公司。

不过，现在我们对此不再那么确定了。参考上文关于认知架构的讨论，将模型的强大能力转化为真正可用的、完整的业务解决方案需要大量的工程工作。如果“AI 原生”（AI Native）比我们预期的意义更为深远，那么未来可能会有截然不同的图景。

二十年前，许多本地部署软件公司对 SaaS 发展不以为然，认为“我们可以自己运行服务器，通过网络提供服务”。虽然听起来简单，但 SaaS 的崛起带来了商业模式的彻底变革，从瀑布式开发转向敏捷开发，从高价定制转向基于使用量的灵活定价。很少有本地部署公司能成功完成转型。

如果 AI 的发展是类似的转变？AI 的机会会不会既体现在“为工作收费”，又逐渐替代传统软件？

我们在 Day.ai 中看到了未来的缩影。Day 是一个完全“AI 原生”的客户关系管理 (CRM) 系统。传统上，系统集成商依靠为客户配置 Salesforce 系统赚取数十亿美元。然而，Day 只需获取用户的电子邮件、日历数据，并填写一份一页的调查问卷，就可以自动生成一个完全定制化的 CRM，并能持续实时更新。虽然目前功能还不够丰富，但自动生成且保持最新状态的 CRM 已经让不少用户选择了 Day.ai。

投资领域

作为投资者，我们主要关注哪些领域？资本又在流向哪些方向？

基础设施

这是超大规模公司（hyperscalers）的主战场，由博弈论驱动，而非微观经济原则。对风险投资者而言吸引力有限。

模型

这是超大规模公司和财务投资者的领域。超大规模公司在这里投入资金，最后会回流到他们的云业务中。而财务投资者常受“被科学迷住”的偏见影响，尽管这些模型技术令人惊艳，但是否符合经济学规律仍待验证。

开发者工具和基础设施软件

这一层对战略投资者的吸引力相对较低，但对风险投资者却是个机遇。在云计算转型过程中，开发者工具层催生了约15家年收入超10亿美元的公司，我们预计 AI 转型中也会出现类似的格局。

应用

这是风险投资最为青睐的领域。在云计算转型中，应用层涌现了约20家年收入超过10亿美元的公司；在移动互联网转型中，也有约20家公司成功跨入这一层级。我们预计，随着 AI 的发展，应用层将再次迎来快速增长。

结语

在生成式 AI 的下一阶段中，我们预计推理研究与开发（R&D）的成果将迅速而深刻地影响应用层。当前的大多数认知架构依赖于一些“去约束”的技术；随着这些能力逐渐深度嵌入到模型中，我们预计自主型应用程序将变得更加复杂和可靠。

在研究实验室中，推理和推理计算的研发仍将是一个重要主题。如今，我们拥有了新的扩展法则，推理竞赛正在加速展开。然而，在各个具体领域中，收集真实世界数据并将其转化为领域特定的认知架构依然充满挑战。这也正是应用层开发者在解决现实复杂问题时可能拥有的独特优势。

展望未来，多智能体系统（multi-agent systems），如 Factory 的 droids，可能会越来越多地用于模拟推理和社会学习的过程。AI 一旦能够承担实际工作，我们将看到多个智能体协作完成更复杂的任务，从而实现更大的生产力提升。

我们所有人都在期待生成式 AI 的“第 37 步”——这一隐喻源于 AlphaGo 与李世石对战时的关键一步，即 AI 系统展现出超越人类的思维方式，这种突破让人们看到了类似“独立思考”的可能性。这并不意味着 AI 真正“觉醒”（AlphaGo 并未觉醒），而是指我们已经模拟出了类似感知、推理和行动的过程，AI 能够以真正创新且有价值的方式进行探索。也许这将是通用人工智能 (AGI) 的开端。如果真是如此，这并不是一次性突破，而是技术进步的下一个阶段。

生成式 AI 的 Act o1#

自主推理时代的来临#

永恒的“草莓田”#

AlphaGo x 大语言模型（LLMs）#

系统1 vs 系统2思维#

新的扩展法则：推理竞赛全面展开#

一个模型统治所有领域？#

复杂的现实世界：定制认知架构#

应用层市场分析#

服务即软件#

新一批自主型应用#

对 SaaS 生态系统的影响#

投资领域#

结语#