大模型时代我一直有一个观点,即“模型即应用”,这篇由 pleias 联合创始人 Alexander Doria 所写的文章也在说阐述类似的逻辑,所以我把它翻译了一下分享给大家。
文章的核心观点是,人工智能 (AI) 发展的下一个阶段将以 “模型即产品” 为中心。 过去几年关于 AI 发展方向的猜测,如智能体、推理器和多模态,都指向了模型本身的重要性日益提升。 当前的研究和市场发展趋势都支持这一观点,预示着模型提供商将不再仅仅是 API 的提供者,而是转向提供更完整、更高价值的产品和服务。
OpenAI 的 DeepResearch 和 Claude Sonnet 3.7 作为 “模型即产品” 新范式的代表,DeepResearch 不是简单的 O3 封装,而是一个完全重新训练的模型,具备内部搜索、点击、滚动和文件解析等浏览能力,能够独立完成端到端的搜索任务并生成结构化的报告。这与 Perplexity 和 Google 等的 “Deep Research” 功能有所不同,后者可能只是在现有模型基础上进行微调。
Anthropic 对智能体的定义,强调真正的智能体应该能够 “动态地指导自己的流程和工具使用,保持对完成任务方式的控制” ,即内部自主完成任务。 而目前许多初创公司构建的 “智能体” 实际上是 “工作流” ,即通过预定义的代码路径编排 LLMs 和工具的系统。 作者认为,自主系统的重大进展将来自于模型本身的重新设计,而不是工作流的编排。Claude 3.7 的发布以及 Pleias 在 RAG 自动化方面的尝试都印证了这一点。
对于许多成功的模型 “wrapper” (封装应用) 来说,面临着 “训练或被训练” 的两难选择。 大型模型提供商正在向上游应用层扩展,试图捕获更多价值,而 “wrapper” 公司可能会沦为大型模型提供商的免费市场调研和数据生成者。 Naveen Rao 预测,封闭模型提供商将在未来 2-3 年内停止销售 APIs ,转而提供带有用户界面的完整应用。
当前 AI 投资环境存在误判,风险投资基金普遍认为价值在独立于模型层的应用层,模型提供商将持续降低 token 价格,封闭模型将满足所有需求,以及构建训练能力是浪费时间。 然而,强化学习的价值被低估了,模型训练是一个具有巨大颠覆潜力的领域,但却面临融资困境。 OpenAI 也意识到了垂直领域强化学习的重要性,未来可能会调整合作策略,与在早期训练阶段的合作伙伴建立更紧密的联系。
DeepSeek 不仅仅将模型视为产品,而是将其视为通用基础设施层。 DeepSeek 的目标是构建完善的 AI 产业生态系统,将应用开发留给生态伙伴,而自身专注于技术创新和基础设施建设。 这预示着 AI 领域的竞争格局正在发生深刻变化,单纯关注应用层可能已经落后于时代。
原文:模型即产品
过去几年,人们一直在猜测下一轮 人工智能 (AI) 开发的重点会是什么?是 AI 智能体 (AI Agent) ?是推理能力?还是真正的多模态技术?
我认为现在可以明确地说:模型本身就是产品。
当前研究和市场发展的所有趋势都指向这个方向。
- 通用能力扩展正在放缓。这正是 GPT-4.5 发布所传递的信息:模型能力提升是线性的,而计算成本的增长却是几何级的。即使在过去两年里,训练方法和基础设施的效率已经有了显著提升,OpenAI 依然无法以经济上可接受的价格来部署这样庞大的模型。
- 有倾向性的训练 (Opinionated training) 效果远超预期。强化学习与推理能力的结合,意味着模型能够快速学习新任务。这既不是简单的机器学习,也不是基础模型,而是一种全新的模式。即使是小型模型,在数学能力上也表现出惊人的进步。代码模型不再仅仅是生成代码,而是能够独立管理整个代码库。Claude 甚至能在极差的上下文信息和缺乏专门训练的情况下玩 Pokemon 游戏。
- 模型推理成本正在快速下降。DeepSeek 近期的优化成果表明,现有 GPU 的算力足以满足全球人口每人每天 1 万 Token 的前沿模型推理需求。现实中根本不存在如此巨大的需求。对于模型提供商来说,单纯销售 Token 已经无法盈利,他们必须向价值链的上游转移。
这种趋势也带来了一些挑战。一直以来,投资者都将目光聚焦在应用层。但在下一阶段的 人工智能 (AI) 发展中,应用层很可能最先被自动化和颠覆。
未来模型的形态
最近几周,我们看到了新一代“模型即产品”的两个典型例子:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。
很多人对 DeepResearch 存在误解,各种开放或封闭的克隆版本也加剧了这种困惑。OpenAI 并非简单地在 O3 模型的基础上构建了一个 (Wrapper) 封装器。他们训练了一个全新的模型 https://cdn.openai.com/deep-research-system-card.pdf,使其能够在内部执行搜索,而无需任何外部调用、提示或流程编排:
该模型通过强化学习,学习了核心浏览能力(搜索、点击、滚动、解读文件等),以及如何推理并整合大量网站信息,从而找到特定的信息或生成全面的报告。
DeepResearch 并非传统的大语言模型 (LLM),也不是普通的聊天机器人。它是一种新型的研究型语言模型,专门设计用于端到端地执行搜索任务。认真使用过它的人会立刻发现,它能够生成结构一致、内容详尽的报告,并提供底层的来源分析过程。相比之下,正如 Hanchung Lee 所指出的 https://leehanchung.github.io/blogs/2025/02/26/deep-research/,包括 Perplexity 和 Google 在内的其他 DeepSearch 产品,都只是在普通模型的基础上做了一些简单的调整:
Google 的 Gemini 和 Perplexity 的聊天助手也提供“Deep Research”功能,但它们都没有公布任何关于如何优化模型或系统来完成这项任务的文献,也没有提供任何实质性的定量评估……我们可以认为,它们所做的微调工作并不显著。
Anthropic 正在清晰地展现他们的愿景。去年 12 月,他们提出了一个备受争议,但在我看来非常正确的 AI 智能体 (AI Agent) 模型定义 https://www.anthropic.com/research/building-effective-agents。与 DeepSearch 类似,AI 智能体 (AI Agent) 必须在内部完成目标任务:它们“能够动态地管理自己的流程和工具使用,自主控制任务的完成方式”。
目前,许多 AI 智能体 (AI Agent) 初创公司构建的并不是真正的 AI 智能体 (AI Agent),而是工作流,即“通过预定义的代码路径来协调 大语言模型 (LLM) 和各种工具的系统”。工作流可能仍然具有一定的价值,尤其是在垂直领域的应用中。然而,对于那些身处大型实验室的人来说,一个显而易见的事实是:在自主系统领域,所有重大进展都将首先来自于对模型的重新设计。
Claude 3.7 的发布就很好地证明了这一点,该模型主要针对复杂的代码使用场景进行了训练。像 Devin 这样的工作流改进方案在 SWE 基准测试中取得了显著提升。
再举一个规模较小的例子:在 Pleias,我们目前正在进行 RAG 流程的自动化。当前的 RAG 系统由许多相互连接但又非常脆弱的工作流组成,包括路由、分块、重排序、查询解释、查询扩展、来源上下文分析和搜索工程等环节。随着训练技术的不断发展,我们完全可以将所有这些流程整合到两个独立但又相互连接的模型中:一个负责数据准备,另一个负责搜索、检索和报告生成。这需要精心设计的合成数据管道和全新的强化学习奖励函数,真正需要的是实际的训练和研究。
总而言之,这种趋势意味着复杂性的转移。通过训练,模型可以预测各种操作和极端情况,从而简化部署过程。在这个过程中,大部分价值由模型训练者创造,并且最终很可能被他们所捕获。简而言之,Claude 的目标是颠覆并取代当前的工作流,例如 Llama Index 提供的这种基础的“AI 智能体 (AI Agent) ”系统:

取而代之的是:

训练者或被训练者
再次强调:大型实验室的进步并非出于不可告人的目的。虽然他们有时可能显得不够透明,但他们的计划是公开的:他们将进行整合,向应用层渗透,并试图在那里获取大部分价值。由此带来的商业影响非常明显。Databricks 的 Gen AI 副总裁 Naveen Rao 一针见血地指出 https://x.com/NaveenGRao/status/1886544584588619840:
所有封闭 人工智能 (AI) 模型提供商将在未来两三年内停止销售 API。只有开放模型会通过 API 提供……封闭模型提供商正在尝试构建非标准化的能力,因此需要优秀的用户界面 (UI) 来实现这些能力。这不再仅仅是一个模型,而是一个带有用户界面 (UI) 的应用程序,为特定目的而服务。
因此,目前的情况是许多人都在否认这个趋势。模型提供商和 (Wrapper) 封装器之间的蜜月期已经结束。未来的发展方向可能有两种:
- Claude Code 和 DeepSearch 是朝着这个方向迈出的早期技术和产品探索。你会注意到,DeepSearch 无法通过 API 调用,只能用于提升高级订阅用户的价值。Claude Code 则是一个极简的终端集成方案。奇怪的是,虽然 Claude 3.7 在 Claude Code 中运行良好,但 Cursor 却难以胜任,我已经看到一些高端用户因此取消了订阅。真正的 大语言模型 (LLM) AI 智能体 (AI Agent) 并不关心现有的工作流,它们会直接取而代之。
- 那些最受关注的 (Wrapper) 封装器公司,现在正在努力转型为混合型 人工智能 (AI) 训练公司。它们确实具备一定的训练能力,但宣传力度很小。Cursor 的主要优势之一是他们的小型自动补全模型。WindSurf 则拥有内部的低成本代码模型 Codium。Perplexity 一直依赖于自研的分类器进行流量路由,最近也开始训练自己的 DeepSeek 变体,用于搜索目的。
- 对于规模较小的 (Wrapper) 封装器公司来说,情况不会发生太大变化,除非大型实验室彻底放弃推理市场,届时它们可能会更加依赖第三方的推理服务提供商。我还希望看到更多公司关注用户界面 (UI) 的设计,因为即使是更通用的模型,也可能会集成常见的部署任务,特别是对于 RAG 流程。
简而言之,对于大多数成功的 (Wrapper) 封装器公司来说,面临的困境非常简单:要么成为训练者,要么被训练。它们目前所做的工作,既是为大型实验室提供免费的市场调研,也是免费的数据设计和生成服务,因为所有输出最终都来自于模型提供商。
至于未来会如何发展,没有人能够确定。成功的 (Wrapper) 封装器公司了解垂直领域的优势,并积累了大量宝贵的用户反馈。但以我的经验来看,从模型层向下渗透到应用层更容易,而不是从头开始构建全新的训练能力。此外,(Wrapper) 封装器公司可能也没有得到投资者的足够支持。我听说,投资者普遍对训练抱有消极态度,以至于这些公司不得不隐藏自己最重要的价值所在:无论是 Cursor small 还是 Codium,目前都没有得到充分的重视。
强化学习的价值被低估了
这引出了一个令人担忧的问题:目前所有关于 人工智能 (AI) 的投资都存在关联性。基金公司都在以下假设下运作:
- 真正的价值在于独立于模型层的应用层,它最有可能颠覆现有市场。
- 模型提供商只会以越来越低的价格出售 Token,从而提高 (Wrapper) 封装器公司的盈利能力。
- 封闭模型的封装可以满足所有现有需求,即使是在那些对外部依赖性存在长期担忧的受监管行业也是如此。
- 构建任何训练能力都是在浪费时间,不仅包括预训练,还包括所有形式的训练。
我担心这越来越像是一场冒险的赌博,而且是一种未能准确评估最新技术发展(尤其是在 强化学习 (RL) 方面)的市场失灵。在当前的经济环境下,风险投资基金的目标是寻找非关联性的投资。它们并不一定需要跑赢标准普尔 500 指数,而是希望通过捆绑风险来确保在经济不景气时,仍然有一些投资能够带来回报。模型训练就是一个完美的例子:在大多数西方经济体面临衰退风险的情况下,它具有巨大的颠覆潜力。然而,模型训练公司却难以获得融资,或者至少无法以常规方式获得融资。Prime Intellect 是少数几家有潜力发展成为前沿实验室的西方 人工智能 (AI) 训练公司之一。尽管他们取得了包括训练首个去中心化 大语言模型 (LLM) 在内的诸多成就,但他们所获得的融资甚至还不如一家普通的 (Wrapper) 封装器公司。
除了大型实验室之外,当前的训练生态系统非常薄弱。你可以数出为数不多的几家公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace 预训练团队(规模很小)……以及一些学术机构(Allen AI、Eleuther 等),它们构建并支持着当前大部分用于模型训练的开放基础设施。在欧洲,我知道至少有 7-8 个 大语言模型 (LLM) 项目将会整合 Common Corpus 和我们在 Pleias 开发的一些预训练工具,其余项目则会采用 fineweb,以及来自 Nous 或 Arcee 的后训练指令集。
当前的融资环境存在着一些根本性的问题。即使是 OpenAI 现在也意识到了这一点。最近,有人 https://x.com/khoomeik/status/1892743475843813680 表达了对当前硅谷创业公司缺乏“特定领域的强化学习 (RL) ”的不满。我相信这个信息直接来自于 Sam Altman,并且可能会在下一期 YC 孵化项目中得到体现,这也预示着一个更大的转变:未来,大型实验室选择的合作伙伴将不再仅仅是 API 客户,而是参与早期训练阶段的相关承包商。
如果模型即产品,那么你就不能单打独斗。搜索和代码是唾手可得的果实:它们已经有了两年的主要用例积累,市场也接近成熟,你可以在几个月内推出一个新的 Cursor。但未来许多利润丰厚的 人工智能 (AI) 用例尚未发展到这个阶段,例如那些仍然统治着世界经济的、基于规则的系统。拥有跨领域专业知识和高度专注的小型团队,或许最适合解决这些问题,并在完成初步工作后被大公司收购。我们也可以在 UI 领域看到类似的模式:一些首选合作伙伴可以获得封闭的专业模型的独家 API 访问权限,前提是它们能够走上业务收购的道路。
到目前为止,我还没有提到 DeepSeek 或中国的实验室。这是因为 DeepSeek 已经领先一步:他们不再将模型视为产品,而是将其视为通用的基础设施层。与 OpenAI 和 Anthropic 一样,联文峰也公开了他的计划 https://www.lesswrong.com/posts/kANyEjDDFWkhSKbcK/two-interviews-with-the-founder-of-deepseek:
我们认为,目前是技术创新爆发的阶段,而不是应用爆发的阶段……如果能够形成完整的上下游产业生态系统,我们就不需要自己开发应用程序。当然,如果需要,我们也可以开发应用程序,但研究和技术创新始终是我们的首要任务。
在这个阶段,只专注于应用程序就像“用上一次战争的将军来打下一次战争”。我担心,在西方,许多人甚至还没有意识到上一次战争已经结束。