这份报告基于 OpenRouter 平台超过 100 万亿 token 的数据,深入分析了截至 2025 年底的大型语言模型(LLM)使用现状。报告揭示了 AI 领域正从简单的文本生成向复杂的多步推理转变,开源模型正在重塑市场格局,且用户的使用习惯呈现出明显的全球化和多样化趋势。

主要观点

从模式匹配到多步推理的范式转变

随着 2024 年 12 月 5 日 OpenAI 发布 o1 模型,AI 领域迎来了转折点。行业重心从单次前向传递的模式生成,转移到了包含内部多步思考和规划的“推理”模型。这种转变加速了代理式(Agentic)工作流的部署。

开源模型与专有模型的双重生态

虽然专有模型(如 Anthropic 和 OpenAI 的产品)在高端任务中仍占主导,但开源模型(OSS)已占据约 30% 的市场份额。特别是来自中国的模型(如 DeepSeek 和 Qwen )增长迅速,不仅在成本上具有优势,在性能上也日益强劲,促使市场形成了多元化的竞争格局。

编程与角色扮演主导应用场景

与普遍认为 AI 主要用于生产力工具的印象不同,数据表明“创造性角色扮演”和“编程辅助”是两大核心用例。开源模型在角色扮演领域尤为流行,而编程任务则推动了长上下文和复杂推理的需求。

“灰姑娘水晶鞋”留存效应

用户留存率分析揭示了一种被称为“灰姑娘水晶鞋”的现象:当一个新模型首次完美解决某类用户的特定痛点(即“合脚”)时,这些早期用户群体会形成极高的忠诚度和长期留存,即使后续有新模型推出也不易流失。

关键细节

数据来源与规模

  • 数据基础:研究基于 OpenRouter 平台上的真实交互元数据,涵盖超过 100 万亿 token 的流量,时间跨度主要集中在 2024 年底至 2025 年底。
  • 隐私保护:分析仅基于元数据(如 token 数量、模型类型、地理位置标签),不涉及具体的提示词或生成内容。

开源模型的崛起与演变

  • 市场份额:开源模型的使用量稳步上升,其中中国开发的开源模型在 2025 年下半年增长显著,部分周次占总流量的近 30% 。
  • 竞争格局:市场不再由单一模型垄断。DeepSeek 曾占据主导,但目前 Qwen 、 Meta LLaMA 、 Mistral AI 等多家厂商均占有重要份额。
  • 模型尺寸:市场出现了“中间地带”。用户不再只选择极小或极大的模型, 150 亿至 700 亿参数的“中等”模型因平衡了能力与效率而受到青睐。

代理式推理(Agentic Inference)的兴起

  • 推理模型占比:到 2025 年底,经过推理优化的模型处理了超过 50% 的 token 流量。
  • 序列长度增加:平均 Prompt(提示词)长度增加了约 4 倍,主要由编程任务驱动。编程任务的输入通常包含大量代码上下文,远超一般对话。
  • 复杂性提升:用户不再只是进行单轮问答,而是越来越多地使用多步工具调用和长上下文交互。

应用类别深度分析

  • 编程(Programming):是增长最快且最具战略意义的类别。 Anthropic 的 Claude 系列在此领域长期占据 60% 以上的份额,但正面临来自 OpenAI 和 MiniMax 等对手的激烈竞争。
  • 角色扮演(Roleplay):在开源模型使用中占比超过 50% 。这表明开源模型因其灵活性和较少的限制,成为互动娱乐和创意写作的首选。
  • 其他类别:科技、翻译和一般知识问答构成了长尾需求。

地理分布与全球化

  • 亚洲崛起:亚洲地区的支出占比从早期的 13% 激增至 31% ,成为重要的 AI 消费和创新中心。
  • 全球格局:虽然英语占主导( >80% ),但中文(简体)是第二大语言,占比近 5% 。北美以外的地区贡献了超过一半的使用量。

成本与使用量的关系

  • 价格弹性弱:整体上,价格降低并未直接带来同比例的使用量激增。市场呈现两极分化:
    • 高价高值:专有模型(如 GPT-4 )价格高昂,但因其在关键任务上的可靠性,需求依然强劲(缺乏弹性)。
    • 低价高量:开源模型以极低的成本承接了海量的、对价格敏感的任务(如角色扮演)。
  • Jevons 悖论:在某些高效模型(如 Gemini Flash )上观察到了 Jevons 悖论,即成本降低反而导致总 token 消耗量大幅上升。

原文:AI 现状报告

一项基于 OpenRouter 的 100 万亿 Token 实证研究

Malika Aubakirova*Alex AtallahChris ClarkJustin SummervilleAnjney Midha*

* a16z (Andreessen Horowitz) •† OpenRouter Inc.

* 主要贡献者。详情请参阅 贡献 部分。

2025年12月

摘要

过去的一年标志着大语言模型(LLM)演变和实际应用的一个转折点。随着 2024 年 12 月 5 日首个被广泛采用的推理模型 o1 的发布,该领域从单次模式生成转向了多步深思熟虑的推理,从而加速了部署、实验和新型应用的出现。尽管这种转变在快速发生,但我们要从实证角度理解这些模型在实践中究竟是如何被使用的,这一点却滞后了。在这项工作中,我们利用 OpenRouter 平台(一个涵盖多种 LLM 的 AI 推理提供商)来分析跨任务、跨地域和跨时间的超过 100 万亿 Token 的真实 LLM 交互数据。在我们的实证研究中,我们观察到开源权重模型的广泛采用,创造性角色扮演(远超许多人认为占主导地位的生产力任务)和编程辅助类别的超高人气,以及代理式(Agentic)推理的兴起。此外,我们的留存率分析确定了 基石群组(Foundational Cohorts):这些早期用户的参与持续时间远超后续群组。我们将这种现象称为辛德瑞拉 “水晶鞋” 效应。这些发现强调了开发者和最终用户在“野生环境”中与 LLM 的互动方式是复杂且多面的。我们讨论了这对模型构建者、AI 开发者和基础设施提供商的启示,并概述了数据驱动的使用理解如何为 LLM 系统的更好设计和部署提供信息。

下载 PDF

引言

就在一年前,大语言模型的格局看起来还截然不同。在 2024 年底之前,最先进的系统主要由单次传递、自回归的预测器主导,这些预测器经过优化以延续文本序列。一些先驱性的工作试图通过高级指令遵循和工具使用来近似推理能力。例如,Anthropic 的 Sonnet 2.1 & 3 模型擅长复杂的 工具使用和检索增强生成(RAG),而 Cohere 的 Command R 模型则集成了结构化的工具规划 Token。另外,像 Reflection 这样的开源项目探索了在训练期间进行监督式思维链(CoT)和自我批评循环。尽管这些先进技术产生了类似推理的输出和卓越的指令遵循能力,但基本的推理过程仍然基于单次前向传递,输出的是从数据中学到的表面痕迹,而不是执行迭代的内部计算。

这一范式在 2024 年 12 月 5 日 发生了演变,当时 OpenAI 发布了其 o1 推理模型(代号 Strawberry)的完整版本[4]。2024 年 9 月 12 日发布的预览版已经预示着与传统自回归推理的背离。与之前的系统不同,o1 采用了一种扩展的推理时计算过程,涉及内部多步深思熟虑、潜在规划和迭代优化,然后再生成最终输出。从经验上看,这使得数学推理、逻辑一致性和多步决策能力得到了系统性提升,反映了从模式补全到结构化内部认知的转变。回想起来,去年标志着该领域真正的拐点:早期的方法指向了推理,但 o1 引入了第一个普遍部署的架构,通过深思熟虑的多阶段计算来执行推理,而不仅仅是 描述 它[6, 7]。

虽然 LLM 能力的最新进展已被广泛记录,但关于这些模型在实践中究竟如何被使用的系统性证据仍然有限[3, 5]。现有的描述往往侧重于定性演示或基准测试性能,而非大规模的行为数据。为了填补这一空白,我们利用来自 OpenRouter 的 100 万亿 Token 数据集对 LLM 的使用情况进行了实证研究,OpenRouter 是一个多模型 AI 推理平台,作为多样化 LLM 查询的枢纽。

OpenRouter 的视角为细粒度的使用模式提供了一个独特的窗口。因为它协调了跨越各种模型的请求(涵盖闭源 API 和开源权重部署),OpenRouter 捕捉了开发者和最终用户实际上如何调用语言模型来执行各种任务的代表性截面。通过分析这个丰富的数据集,我们可以观察哪些模型被用于哪些任务,使用情况如何在地理区域和时间上变化,以及定价或新模型发布等外部因素如何影响行为。

在本文中,我们从之前关于 AI 采用的实证研究中汲取灵感,包括 Anthropic 的经济影响和使用分析[1]以及 OpenAI 的报告 ChatGPT 的使用方式[2],旨在进行中立、证据驱动的讨论。我们首先描述我们的数据集和方法,包括我们要如何对任务和模型进行分类。然后,我们深入探讨一系列分析,阐明使用情况的不同侧面:

  • 开源与闭源模型: 我们研究了开源模型相对于专有模型的采用模式,确定了开源生态系统中的趋势和关键参与者。
  • 代理式推理: 我们调查了多步、工具辅助推理模式的出现,捕捉用户如何越来越多地将模型作为更大型自动化系统中的组件使用,而不仅仅是用于单轮交互。
  • 类别分类: 我们按任务类别(如编程、角色扮演、翻译等)分解使用情况,揭示哪些应用领域驱动了最多的活动,以及这些分布在不同模型提供商之间有何差异。
  • 地理分布: 我们分析了全球使用模式,比较各大洲的 LLM 采用情况,并深入研究美国内部的使用情况。这突显了区域因素和本地模型供应如何塑造整体需求。
  • 有效成本与使用动态: 我们评估使用量如何与有效成本相对应,捕捉实践中 LLM 采用的经济敏感性。该指标基于平均输入加输出 Token,并考虑了缓存效应。
  • 留存模式: 我们分析了使用最广泛的模型的长期留存率,确定了定义持久、高粘性行为的 基石群组。我们将此现象称为辛德瑞拉 “水晶鞋” 效应,即早期用户需求与模型特征之间的契合创造了一种持久的适应性,从而维持了随时间推移的参与度。

最后,我们讨论了这些发现揭示了关于现实世界 LLM 使用的哪些信息,强调了意想不到的模式并纠正了一些迷思。

数据和方法论

OpenRouter 平台和数据集

我们的分析基于从 OpenRouter 平台收集的元数据,这是一个统一的 AI 推理层,连接用户和开发者与数百个大语言模型。OpenRouter 上的每个用户请求都针对用户选择的模型执行,并且描述产生的“生成”事件的结构化元数据会被记录下来。本研究中使用的数据集包含来自全球用户群的数十亿个提示-补全(prompt–completion)对的 匿名请求级元数据,跨度约为两年,直至撰写本文时。我们确实重点关注了最后一年。

至关重要的是,我们无法访问提示或补全的底层文本。我们的分析完全依赖于 元数据,这些元数据捕捉了每次 生成 的结构、时间和上下文,而不暴露用户内容。这种保护隐私的设计使得大规模行为分析成为可能。

每个生成记录包括关于时间、模型和提供商标识符、Token 使用量以及系统性能指标的信息。Token 计数包含提示(输入)和补全(输出)Token,使我们能够衡量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是流式的还是已取消的,或者是否调用了工具调用功能)。总之,这些属性提供了关于模型在实践中如何被使用的详细但非文本的视图。

基于此元数据的所有分析、聚合和大多数可视化均使用 Hex 分析平台进行,该平台为版本化的 SQL 查询、转换和最终图表生成提供了可重复的管道。

我们强调,该数据集是 观察性的:它反映了 OpenRouter 平台上的真实世界活动,而该平台本身受模型可用性、定价和用户偏好的影响。截至 2025 年,OpenRouter 支持来自 60 多个提供商的 300 多个活跃模型,并服务于数百万开发者和最终用户,超过 50% 的使用量来自美国以外。虽然平台之外的某些使用模式未被捕捉到,但 OpenRouter 的全球规模和多样性使其成为了解大规模 LLM 使用动态的代表性透镜。

用于内容分类的 GoogleTagClassifier

本研究无法直接访问用户提示或模型输出。相反,OpenRouter 通过一个非专有模块 GoogleTagClassifier 对约 0.25% 的提示和响应的随机样本进行内部分类。虽然这仅代表总活动的一小部分,但考虑到 OpenRouter 处理的总体查询量,底层数据集仍然相当可观。GoogleTagClassifier 接口连接 Google Cloud Natural Language 的 classifyText 内容分类 API

该 API 将分层的、与语言无关的分类法应用于文本输入,返回一个或多个类别路径(例如 /Computers & Electronics/Programming/Arts & Entertainment/Roleplaying Games)以及范围在 [0,1] 内的相应置信度分数。分类器直接对提示数据(最多前 1,000 个字符)进行操作。分类器部署在 OpenRouter 的基础设施内,确保分类保持匿名且不与个人客户关联。置信度分数低于默认阈值 0.5 的类别被排除在进一步分析之外。分类系统本身完全在 OpenRouter 的基础设施内运行,不属于本研究的一部分;我们的分析仅依赖于产生的分类输出(实际上是描述提示分类的元数据),而不是底层的提示内容。

为了使这些细粒度的标签在规模上可用,我们将 GoogleTagClassifier 的分类法映射到一组研究定义的紧凑桶中,并为每个请求分配 标签。每个标签以一对一的方式汇总到更高级别的 类别。代表性的映射包括:

  • Programming (编程): 来自 /Computers & Electronics/Programming/Science/Computer Science/*
  • Roleplay (角色扮演): 来自 /Games/Roleplaying Games 以及 /Arts & Entertainment/* 下的创造性对话子类
  • Translation (翻译): 来自 /Reference/Language Resources/*
  • General Q&A / Knowledge (一般问答/知识): 来自 /Reference/General Reference/*/News/*(当意图看似为事实查找时)
  • Productivity/Writing (生产力/写作): 来自 /Computers & Electronics/Software/Business & Productivity Software/Business & Industrial/Business Services/Writing & Editing Services
  • Education (教育): 来自 /Jobs & Education/Education/*
  • Literature/Creative Writing (文学/创意写作): 来自 /Books & Literature/* 以及 /Arts & Entertainment/* 下的叙事子类
  • Adult (成人): 来自 /Adult
  • Others (其他): 针对主要映射不适用的长尾提示。(注:我们在下文的大多数分析中省略了此类别。)

这种方法存在固有的局限性,例如,依赖预定义的分类法限制了对新颖或跨领域行为的分类方式,某些交互类型可能尚不适合现有的类别。实际上,当内容跨越重叠领域时,一些提示会收到多个类别标签。尽管如此,分类器驱动的分类为我们提供了下游分析的透镜。这使我们不仅能量化 LLM 被使用的 数量,还能了解用于 什么目的

模型和 Token 变体

有几个变体值得明确指出:

  • 开源与专有: 如果模型的权重是公开可用的,我们将其标记为 开源 (OSS,为简单起见);如果只能通过受限 API(例如 Anthropic 的 Claude)访问,则标记为 闭源。这种区分让我们能够衡量社区驱动模型与专有模型的采用情况。
  • 原产地(中国与世界其他地区): 鉴于中国 LLM 及其独特生态系统的兴起,我们按主要开发地区对模型进行标记。中国模型 包括由中国大陆、台湾或香港的组织开发的模型(例如阿里巴巴的 Qwen、月之暗面的 Kimi 或 DeepSeek)。RoW(世界其他地区)模型 涵盖北美、欧洲和其他地区。
  • 提示与补全 Token: 我们区分 提示 Token(代表提供给模型的输入文本)和 补全 Token(代表模型生成的输出)。总 Token 等于提示和补全 Token 的总和。推理 Token 代表具有原生推理能力的模型中的内部推理步骤,并包含在 补全 Token 中。

除非另有说明,Token 量 指的是 提示(输入)和补全(输出)Token 的总和

地理细分

为了了解 LLM 使用的区域模式,我们按用户地理位置细分请求。直接的请求元数据(如基于 IP 的位置)通常不精确或已被匿名化。相反,我们根据与每个账户关联的 账单位置 来确定用户区域。这为用户地理位置提供了更可靠的代理,因为账单数据反映了与用户支付方式或账户注册相关联的国家或地区。我们在区域采用和模型偏好的分析中使用这种基于账单的细分。

这种方法有局限性。一些用户使用第三方账单或共享的组织账户,这可能与他们的实际位置不符。企业账户可能会将跨多个地区的活动汇总在一个账单实体下。尽管存在这些不完善之处,但在考虑到我们能够访问的元数据的情况下,账单地理位置仍然是进行隐私保护地理分析的最稳定和可解释的指标。

时间框架和覆盖范围

我们的分析主要涵盖截至 2025 年 11 月的 13 个月滚动期,但并非所有底层元数据都跨越这个完整窗口。大多数模型级和定价分析集中在 2024 年 11 月 3 日至 2025 年 11 月 30 日的时间框架内。然而,类别级分析(尤其是使用 GoogleTagClassifier 分类法的分析)基于从 2025 年 5 月开始的较短区间,反映了 OpenRouter 上一致标签可用的时间。特别是,详细的任务分类字段(例如 ProgrammingRoleplayTechnology 等标签)直到 2025 年年中才添加。因此,“类别”部分的所有发现应被解释为代表 2025 年年中的使用情况,而非全年的使用情况。

除非另有说明,所有时间序列聚合均使用 UTC 归一化时间戳按周计算,对提示和补全 Token 求和。这种方法确保了跨模型家族的可比性,并最大限度地减少了来自瞬态峰值或区域时区效应的偏差。

开源与闭源模型

xx

开源与闭源模型拆分。 按来源类型划分的总 Token 量的每周份额。较浅的蓝色代表开源权重模型(中国 vs 世界其他地区),而深蓝色对应专有(闭源)产品。垂直虚线标记了关键开源权重模型的发布,包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。

AI 生态系统中的一个核心问题是开源权重(为简单起见我们缩写为 OSS)与专有模型之间的平衡。下图展示了过去一年这种平衡在 OpenRouter 上是如何演变的。虽然专有模型,特别是来自北美主要提供商的模型,仍然服务于大部分 Token,但 OSS 模型稳步增长,到 2025 年底已达到约三分之一的使用量。

这种扩张并非偶然。使用量的激增与 DeepSeek V3 和 Kimi K2 等主要开源模型的发布(在第一张图中用垂直虚线表示)相吻合,这表明具有竞争力的 OSS 发布,如 DeepSeek V3[9] 和 GPT OSS 模型[8],会被迅速采用并维持其收益。重要的是,这些增长在最初的发布周之后持续存在,意味着这是真正的生产使用,而不仅仅是短期的实验。

xx 按模型类型划分的每周 Token 量。 堆叠条形图显示随时间推移各模型类别的总 Token 使用量。深红色对应专有模型(Closed),橙色代表中国开源模型(Chinese OSS),青色表示中国以外开发的开源模型(RoW OSS)。图表突显了 OSS Token 份额在整个 2025 年逐渐增加,特别是从年中开始在中国 OSS 模型中。

这一增长的很大一部分来自 中国开发的模型。从 2024 年底微不足道的基础开始(每周份额低至 1.2%),中国 OSS 模型稳步获得关注,在某些周内达到所有模型总使用量的近 30%。在这一年的窗口期内,它们平均占每周 Token 量的约 13.0%,强劲的增长集中在 2025 年下半年。相比之下,RoW OSS 模型平均占 13.7%,而专有 RoW 模型保留了最大的份额(平均 70%)。中国 OSS 的扩张不仅反映了具有竞争力的质量,还反映了快速迭代和密集的发布周期。像 Qwen 和 DeepSeek 这样的模型保持了定期的模型发布,能够快速适应新兴的工作负载。这种模式实质性地重塑了开源领域,并推动了整个 LLM 领域的全球竞争。

这些趋势表明 LLM 生态系统存在持久的双重结构。专有系统继续定义可靠性和性能的上限,特别是对于受监管或企业工作负载。相比之下,OSS 模型提供成本效率、透明度和定制化,使其成为某些工作负载的有吸引力的选择。目前的平衡点大约在 30%。 这些模型并不是互斥的;相反,它们在开发者和基础设施提供商日益青睐的多模型堆栈中相互补充。

关键的开源参与者

下表按服务的总 Token 量对我们数据集中的顶级模型家族进行了排名。OSS 模型的格局在过去一年中发生了显着变化:虽然 DeepSeek 仍然是按数量计最大的单一 OSS 贡献者,但随着新进入者迅速获得地盘,其主导地位已经减弱。今天,多个开源家族各自维持着大量的使用,指向一个多样化的生态系统。

模型作者总 Token (万亿)
DeepSeek14.37
Qwen5.59
Meta LLaMA3.96
Mistral AI2.92
OpenAI1.65
Minimax1.26
Z-AI1.18
TNGTech1.13
MoonshotAI0.92
Google0.82

xx 按模型作者划分的总 Token 量(2024年11月–2025年11月)。 Token 计数反映了 OpenRouter 上所有模型变体的聚合使用量。

随时间推移的前 15 个 OSS 模型。 领先开源模型的每周相对 Token 份额(堆叠面积图)。每个彩色带代表一个模型对总 OSS Token 的贡献。随时间推移变宽的调色板表明分布更具竞争性,最近几个月没有单一的主导模型。

此图说明了前几大个别开源模型之间的市场份额每周都在发生戏剧性的演变。在此期间的早期(2024 年底),市场高度整合:来自 DeepSeek 家族的两个模型(V3 和 R1)始终占据所有 OSS Token 使用量的一半以上,形成了图表底部深蓝色的大条带。

这种近乎垄断的结构在夏季拐点(2025 年中期)之后被打破。此后,市场变得更加广阔和深入,使用量显着多样化。像 Qwen 的模型、Minimax 的 M2、MoonshotAI 的 Kimi K2 和 OpenAI 的 GPT-OSS 系列等新进入者均迅速增长,服务于大部分请求,通常在发布后的几周内即达到生产规模的采用。这表明开源社区和 AI 初创公司可以通过引入具有新功能或卓越效率的模型来实现快速采用。

到 2025 年底,竞争平衡已从近乎垄断转变为多元化的混合体。没有任何单一模型超过 OSS Token 的 25%,Token 份额现在更均匀地分布在五到七个模型中。实际意义在于,用户在更广泛的选项中发现了价值,而不是默认选择一个“最佳”选项。尽管此图可视化的是 OSS 模型之间的相对份额(而非绝对量),但明显的趋势是向市场碎片化和开源生态系统内竞争加剧的决定性转变。

总体而言,开源模型生态系统现在高度动态化。 关键见解包括:

  • 顶级多样性: 曾经一个家族(DeepSeek)主导 OSS 使用,现在我们越来越多地看到半打模型各自维持着有意义的份额。没有任何单一开源模型能持续持有超过 ≈20–25% 的 OSS Token。
  • 新进入者的快速扩展: 有能力的新开源模型可以在几周内捕获大量使用量。例如,MoonshotAI 的模型迅速增长以与老牌 OSS 领导者相媲美,甚至像 MiniMax 这样的新来者在一个季度内就从零增长到大量流量。这表明切换摩擦低,且用户群渴望尝试。
  • 迭代优势: DeepSeek 长期位居榜首突显了持续改进至关重要。DeepSeek 的连续发布(Chat-V3、R1 等)使其即使在挑战者出现时也能保持竞争力。停滞不前的 OSS 模型往往会将份额输给那些在最前沿频繁更新或进行特定领域微调的模型。

今天,2025 年的开源 LLM 竞技场就像一个竞争激烈的生态系统,创新周期迅速,且领导地位无法保证。对于模型构建者来说,这意味着发布具有最先进性能的开源模型可以带来立即的采用,但维持使用份额需要对进一步开发进行持续投资。对于用户和应用程序开发者来说,趋势是积极的:有更丰富的开源模型可供选择,通常在特定领域(如角色扮演)具有与专有系统相当甚至有时更优越的能力。

模型尺寸与市场契合度:中型即是新的小型

xx OSS 模型尺寸与使用量。 小型、中型和大型模型服务的总 OSS Token 量的每周份额。百分比按每周总 OSS 使用量归一化。

一年前,开源模型生态系统主要是一个在两个极端之间权衡的故事:大量小型、快速的模型和少数强大的大规模模型。然而,回顾过去一年,市场显着成熟,并且出现了一个新的、不断增长的类别:中型模型。请注意,我们按参数数量对模型分类如下:

  • 小型 (Small): 参数少于 150 亿的模型。
  • 中型 (Medium): 150 亿到 700 亿参数的模型。
  • 大型 (Large): 700 亿或更多参数的模型。

关于开发者和用户行为的数据告诉我们一个微妙的故事。数字显示,虽然所有类别的模型 数量 都在增长,但 使用量 已显著转移。小型模型正在失宠,而中型和大型模型正在捕获这一价值。

xx 按尺寸划分的 OSS 模型数量随时间变化。 每周可用开源模型的计数,按参数尺寸类别分组。

深入观察驱动这些趋势的模型揭示了独特的市场动态:

  • “小型”市场:使用量总体下降。 尽管新模型供应稳定,但小型模型类别的整体使用份额正在下降。该类别的特点是高度碎片化。没有任何单一模型能长期占据主导地位,并且不断有来自 Meta、Google、Mistral 和 DeepSeek 等不同提供商的新进入者流失。例如,Google Gemma 3.12B(2025 年 8 月发布)虽然被快速采用,但在一个拥挤的领域竞争,用户不断寻求下一个最佳替代品。
  • “中型”市场:寻找“模型-市场契合”。 中型模型类别讲述了一个清晰的市场创造故事。直到 2024 年 11 月 Qwen2.5 Coder 32B 发布,该细分市场实际上微不足道,该模型有效地建立了这一类别。随着 Mistral Small 3(2025 年 1 月)和 GPT-OSS 20B(2025 年 8 月)等其他强有力竞争者的到来,该细分市场随后成熟为一个竞争激烈的生态系统,抢占了用户心智份额。这部分表明用户正在寻求能力和效率的平衡。
  • “大型”模型细分市场:多元化的格局。 “追求质量”并没有导致整合,而是导致了多样化。大型模型类别现在拥有一系列高性能竞争者,从 Qwen3 235B A22B Instruct(2025 年 7 月发布)和 Z.AI GLM 4.5 AirOpenAI: GPT-OSS-120B(8 月 5 日):每个都捕获了有意义且持续的使用量。这种多元主义表明用户正积极在多个开源大型模型之间进行基准测试,而不是汇聚于单一标准。

小型模型主导开源生态系统的时代可能已经过去。市场现在正在分化,用户要么倾向于新的、稳健的中型模型类别,要么将其工作负载整合到单一最强大的大型模型上。

开源模型被用于什么?

今天的开源模型被用于极其广泛的任务,涵盖创意、技术和信息领域。虽然专有模型在结构化业务任务中仍然占据主导地位,但 OSS 模型在两个特定领域确立了领导地位:创造性角色扮演编程辅助。这两个类别合计占 OSS Token 使用量的大部分。

xx OSS 模型的类别趋势。 开源模型使用量在高级任务类别中的分布。角色扮演(约 52%)和编程始终主导 OSS 工作负载组合,合计占 OSS Token 的大部分。较小的部分包括翻译、一般知识问答和其他。

上图突出显示,超过一半的 OSS 模型使用量属于 角色扮演 (Roleplay)编程 (Programming) 是第二大类别。这表明用户转向开源模型主要是为了进行创造性的互动对话(如讲故事、角色扮演和游戏场景)以及编码相关的任务。角色扮演的主导地位(徘徊在所有 OSS Token 的 50% 以上)强调了一个开源模型具有优势的用例:它们可用于创造力,并且通常较少受到内容过滤器的限制,使其对奇幻或娱乐应用具有吸引力。角色扮演任务需要灵活的响应、上下文保留和情感细微差别——这些属性开源模型可以有效地提供,而不受商业安全或审核层的严格限制。这使得它们对尝试角色驱动体验、同人小说、互动游戏和模拟环境的社区特别有吸引力。

xx 中国 OSS 类别趋势。 中国开发的开源模型的类别构成。角色扮演仍然是最大的类别,约为 33%,但编程和技术现在占使用量的合计多数(39%)。这一转变表明,像 QwenDeepSeek 这样的模型正越来越多地用于代码生成和基础设施相关的工作负载。虽然高容量的企业用户可能会影响特定细分市场,但总体趋势表明中国 OSS 模型正在技术和生产力领域直接竞争。

xx 按模型来源划分的编程查询。 专有模型 vs 中国 OSS vs 非中国(RoW)OSS 模型处理的编程相关 Token 量的份额。在 OSS 细分市场内,平衡在 2025 年底显著向 RoW OSS 转移,现在占所有开源编码 Token 的一半以上(在此前的时期,中国 OSS 主导了 OSS 编码使用量)。

如果我们只关注编程类别,我们会观察到专有模型仍然处理大部分编码辅助工作(灰色区域),反映了像 Anthropic 的 Claude 这样强大的产品。然而,在 OSS 部分内,出现了一个显着的转变:在 2025 年中期,中国 OSS 模型(蓝色)提供了大部分开源编码帮助(由 Qwen 3 Coder 等早期成功推动)。到 2025 年第四季度,西方 OSS 模型(橙色),如 Meta 的 LLaMA-2 Code 和 OpenAI 的 GPT-OSS 系列激增,但最近几周整体份额有所下降。这种波动表明环境竞争非常激烈。实际的结论是,开源代码助手的使用是动态的,并且对新模型质量高度敏感:开发者愿意接受任何目前提供最佳编码支持的 OSS 模型。作为一个局限性,此图不显示绝对量:开源编码使用量总体增长,因此缩小的蓝色带并不意味着中国 OSS 失去了用户,只是相对份额下降。

xx 按模型来源划分的角色扮演查询。 角色扮演用例的 Token 量,在中国 OSS 和 RoW OSS 模型之间拆分。角色扮演仍然是这两个群体的最大类别;到 2025 年底,流量在中国和非中国开源模型之间大致平分。

现在,如果我们只检查角色扮演流量,我们会看到它现在几乎由世界其他地区 OSS(橙色,最近几周为 43%)和闭源(灰色,最近约为 42%)模型平分。这代表了与 2025 年早些时候相比的显着转变,当时该类别由专有(灰色)模型主导,占据约 70% 的 Token 份额。当时(2025 年 5 月),西方 OSS 模型仅占流量的约 22%,中国 OSS(蓝色)模型占约 8% 的小份额。全年中,专有份额稳步受到侵蚀。到 2025 年 10 月底,随着西方和中国开源模型都获得了显着的地盘,这一趋势加速了。

由此产生的趋同表明了健康的竞争;用户可以从开源和专有产品中为创造性聊天和讲故事选择可行的选项。这反映出开发者认识到了对角色扮演/聊天模型的需求,并为此调整了他们的发布(例如,针对对话进行微调,增加角色一致性的对齐)。值得注意的是,“角色扮演”涵盖了一系列子类型(从随意聊天到复杂的游戏场景)。然而从宏观角度来看,很明显 OSS 模型在这个创意领域具有优势。

解读。 总体而言,在整个 OSS 生态系统中,主要用例是:角色扮演和创造性对话: 顶级类别,可能是因为开源模型可以不受审查,或者更容易针对虚构角色和故事任务进行定制。编程辅助: 第二大类别,并且还在增长,因为开源模型在代码方面变得更加称职。许多开发者在本地利用 OSS 模型进行编码以避免 API 成本。翻译和多语言支持: 一个稳定的用例,尤其是在有强大的双语模型可用的情况下(中国 OSS 模型在此处具有优势)。一般知识问答和教育: 中等使用量;虽然开源模型可以回答问题,但用户可能更喜欢像 GPT-5 这样的闭源模型以获得最高的事实准确性。

值得注意的是,OSS 使用模式(侧重于角色扮演)反映了许多人可能认为的“爱好者”或“独立开发者”领域——在这些领域,定制和成本效率胜过绝对准确性。然而,界限正在模糊:OSS 模型在技术领域正在迅速改进,专有模型也被用于创造性用途。

代理式推理的兴起

基于上一节关于不断演变的模型格局(开源与闭源)的观点,我们现在转向 LLM 使用本身的根本 形态。语言模型在生产中的使用方式正在发生根本性转变:从单轮文本补全转向多步、工具集成和推理密集型工作流。我们将这种转变称为 代理式推理 (Agentic Inference) 的兴起,即部署模型不仅仅是为了生成文本,而是通过规划、调用工具或跨扩展上下文进行交互来行动。本节通过五个代理指标追踪这一转变:推理模型的兴起、工具调用行为的扩展、不断变化的序列长度概况,以及编程使用如何驱动复杂性。

推理模型现在占所有使用量的一半

xx 推理与非推理 Token 趋势。 自 2025 年初以来,通过推理优化模型路由的所有 Token 的份额稳步上升。该指标反映了由推理模型服务的所有 Token 的比例,而不是 模型输出中“推理 Token”的份额。

如上图所示,通过推理优化模型路由的总 Token 份额在 2025 年急剧攀升。在第一季度初实际上微不足道的使用量份额,现在已超过 50%。这种转变反映了市场的供需双方。在供应方面,GPT-5、Claude 4.5 和 Gemini 3 等更高能力系统的发布扩展了用户对逐步推理的期望。在需求方面,用户越来越喜欢能够管理任务状态、遵循多步逻辑并支持代理式工作流的模型,而不仅仅是生成文本。

xx 按 Token 量排名的顶级推理模型。 在推理模型中,xAI 的 Grok Code Fast 1 目前处理最大份额的推理相关 Token 流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 占据了前列的其他位置。

上图显示了推动这一转变的顶级模型。在最新的数据中,xAI 的 Grok Code Fast 1 现在驱动了最大份额的推理流量(不包括免费发布访问),领先于 Google 的 Gemini 2.5 ProGemini 2.5 Flash。这与几周前相比是一个显着的变化,当时 Gemini 2.5 Pro 领跑该类别,DeepSeek R1Qwen3 也在第一梯队。Grok Code Fast 1Grok 4 Fast 在 xAI 积极的推广、具有竞争力的定价以及开发者对其面向代码变体的关注的支持下,迅速获得了份额。与此同时,像 OpenAI 的 gpt-oss-120b 这样的开源模型的持续存在强调了开发者在可能的情况下仍然会选择 OSS。总体组合突显了推理领域变得多么动态,快速的模型更替塑造了哪些系统主导真实的工作负载。

数据指向一个明确的结论:面向推理的模型正在成为实际工作负载的默认路径,流经它们的 Token 份额现在是用户希望如何与 AI 系统交互的领先指标。

工具调用的采用率不断上升

xx 工具调用。 归一化为结束原因被分类为 Tool Call(工具调用)的请求的总 Token 份额,这意味着在请求期间实际调用了工具。该指标反映了成功的工具调用;包含工具定义的请求数量按比例更高。

在上图中,我们报告了源自结束原因为 Tool Call 的请求的总 Token 份额。该指标已归一化,仅捕捉实际调用了工具的那些交互。

这与 Input Tool(输入工具)信号形成对比,后者记录是否在请求期间向模型提供了工具(无论是否调用)。根据定义,输入工具计数高于工具调用结束原因,因为提供是成功执行的超集。结束原因指标衡量已实现的工具使用,而输入工具反映潜在的可用性而非实际调用。由于该指标仅在 2025 年 9 月引入,我们在本文中不予报告。

上图中 5 月份明显的峰值主要是由于一个相当大的账户,其活动短暂地提升了整体数量。除了这一异常情况外,工具采用率全年来表现出持续的上升趋势。

xx 按提供工具量排名的顶级模型。 工具提供集中在明确针对代理式推理优化的模型中,例如 Claude Sonnet、Gemini Flash。

如上图所示,工具调用最初集中在一小部分模型中:OpenAI 的 gpt-4o-mini 以及 Anthropic 的 Claude 3.5 和 3.7 系列,它们合计占据了 2025 年初大部分启用工具的 Token。然而,到了年中,更广泛的模型集开始支持工具提供,反映了一个更具竞争力和多样化的生态系统。从 9 月底开始,较新的 Claude 4.5 Sonnet 模型迅速获得份额。与此同时,像 Grok Code FastGLM 4.5 这样的新条目也取得了明显的进展,反映了在具备工具能力的部署中更广泛的实验和多样化。

对于运营商而言,含义很明确:对于高价值工作流,启用工具使用正在上升。没有可靠工具格式的模型在企业采用和编排环境中面临落后的风险。

提示-补全形状的剖析

xx 提示 Token 数量正在上升。 自 2024 年初以来,平均提示 Token 长度增长了近四倍,反映了日益繁重的上下文工作负载。

xx 补全 Token 数量几乎增加了两倍。 输出长度也有所增加,尽管基数较小,这表明主要由于推理 Token 的原因,响应更加丰富和详细。

xx 编程是提示 Token 增长背后的主要驱动力。 由于标签自 2025 年春季起可用,编程相关任务始终需要最大的输入上下文。

过去一年,模型工作负载的形态发生了显着变化。提示(输入)和补全(输出)Token 量都急剧上升,尽管规模和速率不同。每个请求的平均提示 Token 从约 1.5K 增加到超过 6K,增长了大约四倍,而补全 Token 从约 150 增加到 400 个,几乎增加了两倍。增长的相对幅度突显了向更复杂、上下文丰富的工作负载的决定性转变。

这种模式反映了模型使用的新平衡。今天的典型请求不再是关于开放式生成(“给我写一篇文章”),而是更多地关于对大量用户提供的材料(如代码库、文档、文字记录或长对话)进行推理,并产生简洁、高价值的见解。模型正日益充当分析引擎,而不仅仅是创意生成器。

类别级数据(仅自 2025 年春季起可用)提供了更细致的图景:编程工作负载是提示 Token 增长的主导驱动力。涉及代码理解、调试和代码生成的请求通常超过 20K 输入 Token,而所有其他类别保持相对平稳和低容量。这种不对称的贡献表明,最近提示规模的扩张并不是跨任务的统一趋势,而是与软件开发和技术推理用例相关的集中激增。

更长的序列,更复杂的交互

xx 随时间推移的平均序列长度。 每次生成的平均 Token 数(提示 + 补全)。

xx 编程中的序列长度 vs 整体。 编程提示系统性地更长,且增长更快。

序列长度是任务复杂性和交互深度的代理。上图显示,平均序列长度在过去 20 个月中增加了两倍多,从 2023 年底的不到 2,000 Token 增加到 2025 年底的超过 5,400 Token。这一增长反映了向更长上下文窗口、更深任务历史和更精细补全的结构性转变。

如前一节所述,第二张图进一步明确了这一点:编程相关提示现在的平均 Token 长度是通用提示的 3-4 倍。这种差异表明软件开发工作流是较长交互的主要驱动力。长序列不仅仅是用户的冗长:它们是嵌入式、更复杂的代理式工作流的标志。

启示:代理式推理是新的默认设置

总之,这些趋势(推理份额上升、工具使用扩展、序列变长以及编程的巨大复杂性)表明 LLM 使用的重心已经转移。中位数的 LLM 请求不再是一个简单的问题或孤立的指令。相反,它是结构化的、类似代理的循环的一部分,调用外部工具,对状态进行推理,并在更长的上下文中持久存在。

对于模型提供商来说,这提高了默认能力的门槛。延迟、工具处理、上下文支持以及对格式错误或对抗性工具链的鲁棒性正变得越来越关键。对于基础设施运营商而言,推理平台现在不仅必须管理无状态请求,还必须管理长期运行的对话、执行跟踪和权限敏感的工具集成。如果尚未发生,很快,代理式推理将接管大部分推理任务。

类别:人们如何使用 LLM?

了解用户使用 LLM 执行的任务分布对于评估现实世界的需求和 模型-市场契合度 至关重要。正如“数据和方法论”部分所述,我们将数十亿次模型交互分类为高级应用类别。在“开源与闭源模型”部分,我们关注开源模型以查看社区驱动的使用情况。在这里,我们将镜头扩大到 OpenRouter 上的 所有 LLM 使用(包括闭源和开源模型),以全面了解人们在实践中使用 LLM 做什么。

主导类别

xx 编程作为主导且不断增长的类别。 归类为编程的所有 LLM 查询的份额稳步增加,反映了 AI 辅助开发工作流的兴起。

编程已成为所有模型中最持续扩展的类别。编程相关请求的份额在整个 2025 年稳步增长,与 LLM 辅助开发环境和工具集成的兴起并行。如上图所示,编程查询占 2025 年初总 Token 量的约 11%,并在最近几周超过 50%。这一趋势反映了从探索性或对话性使用向应用任务(如代码生成、调试和数据脚本编写)的转变。随着 LLM 嵌入开发者工作流,它们作为编程工具的角色正在被常态化。这种演变对模型开发具有启示意义,包括更加强调以代码为中心的训练数据,提高多步编程任务的推理深度,以及紧密模型与集成开发环境之间的反馈循环。

对编程支持的日益增长的需求正在重塑模型提供商之间的竞争动态。如下图所示,Anthropic 的 Claude 系列一直主导着该类别,在大部分观察期内占编程相关支出的 60% 以上。然而,格局已经发生了有意义的演变。在 11 月 17 日这一周,Anthropic 的份额首次跌破 60% 的门槛。自 7 月以来,OpenAI 的份额从大约 2% 扩大到最近几周的约 8%,这可能反映了对以开发者为中心的工作负载的重新重视。在同一间隔内,Google 的份额稳定在约 15%。中层市场也在变动。包括 Z.AI、Qwen 和 Mistral AI 在内的开源提供商正在稳步获得心智份额。特别是 MiniMax 已成为快速崛起的进入者,在最近几周显示出显著的收益。

xx 按模型提供商划分的编程请求份额。 编程工作负载高度集中:Anthropic 的模型服务于最大份额的编码查询,其次是 OpenAI 和 Google,MiniMax 占据的份额也在增长。其他提供商合计仅占一小部分。此图省略了 xAI,它有大量使用量但在一段时间内是免费赠送的。

总体而言,编程已成为竞争最激烈且具有战略重要性的模型类别之一。它吸引了顶级实验室的持续关注,即使是模型质量或延迟的微小变化也可以逐周改变份额。对于基础设施提供商和开发者来说,这突显了持续基准测试和评估的需求,尤其是当前沿不断发展时。

类别内的标签构成

xx 按总 Token 份额排名的前 6 个类别。 每个条形图显示该类别内主导子标签的细分。标签表示贡献至少 7% 类别 Token 的子标签。

xxx 按 Token 份额排名的后 6 个类别。 二级类别的类似细分,说明每个领域中子主题的集中度(或缺乏集中度)。

上图按十二个最常见的内容类别细分了 LLM 的使用情况,揭示了每个类别的内部子主题结构。一个关键的结论是,大多数类别并非均匀分布:它们由一两个经常出现的用例模式主导,这通常反映了集中的用户意图或与 LLM 优势的对齐。

在最高容量的类别中,角色扮演 因其一致性和专业化而脱颖而出。近 60% 的角色扮演 Token 属于 Games/Roleplaying Games,表明用户不仅仅将 LLM 视为休闲聊天机器人,更是将其视为结构化的角色扮演或角色引擎。Writers Resources (15.6%) 和 Adult 内容 (15.4%) 的存在进一步加强了这一点,指向互动小说、场景生成和个人幻想的混合。与角色扮演主要是非正式对话的假设相反,数据显示了一个定义明确且可复制的基于体裁的用例。

编程 同样倾斜,超过三分之二的流量标记为 Programming/Other。这标志着代码相关提示的广泛和通用性质:用户并不狭隘地关注特定工具或语言,而是向 LLM 询问从逻辑调试到脚本起草的所有内容。话虽如此,Development Tools (26.4%) 和来自脚本语言的一小部分份额表明出现了专业化。这种碎片化突显了模型构建者改进围绕结构化编程工作流的标签或训练的机会。

除了角色扮演和编程这两个主导类别外,其余领域代表了 LLM 使用的多样化但容量较低的长尾。虽然个别规模较小,但它们揭示了关于用户如何在跨专业和新兴任务中与模型交互的重要模式。例如,翻译科学健康 显示出相对平坦的内部结构。在翻译中,使用量在 Foreign Language Resources (51.1%) 和 Other 之间几乎均匀分配,表明需求分散:多语言查找、改写、轻量级语码转换,而不是持续的文档级翻译。科学由单一标签 Machine Learning & AI (80.4%) 主导,表明大多数科学查询是关于 AI 的元问题,而不是物理或生物学等一般 STEM 主题。这反映了用户兴趣或模型优势偏向于自我指涉的询问。

相比之下,健康是顶级类别中最分散的,没有子标签超过 25%。Token 分布在医学研究、咨询服务、治疗指导和诊断查找中。这种多样性突显了该领域的复杂性,同时也突显了安全建模的挑战:LLM 必须跨越高方差的用户意图,通常在敏感背景下,而没有明确集中在单一用例中。

连接这些长尾类别的是它们的广泛性:用户转向 LLM 进行探索性、轻度结构化或寻求帮助的互动,但没有在编程或个人助理中看到的专注工作流。综上所述,这些二级类别可能不主导容量,但它们暗示了潜在的需求。它们表明 LLM 正在被用于从翻译到医疗指导再到 AI 自省等许多领域的边缘,随着模型在领域稳健性和工具集成方面的改进,我们可能会看到这些分散的意图汇聚成更清晰、高容量的应用。

相比之下,金融学术法律 则更加分散。金融将其容量分散在外汇、社会责任投资和审计/会计中:没有单一标签突破 20%。法律显示出类似的熵,使用量在 Government/Other (43.0%) 和 Legal/Other (17.8%) 之间分配。这种碎片化可能反映了这些领域的复杂性,或者仅仅是与编码和聊天等更成熟的类别相比,缺乏针对它们的 LLM 工作流。

数据表明,现实世界的 LLM 使用并非完全是探索性的:它紧紧围绕一小部分可重复的高容量任务。角色扮演、编程和个人协助各自表现出清晰的结构和主导标签。相比之下,科学、健康和法律领域更加分散,可能未得到充分优化。这些内部分布可以指导模型设计、特定领域的微调和应用级界面,特别是在根据用户目标定制 LLM 方面。

按类别划分的作者级见解

不同的模型作者被用于不同的使用模式。下图显示了主要模型家族(Anthropic 的 Claude、Google 的模型、OpenAI 的 GPT 系列、DeepSeek 和 Qwen)的内容类别分布。每个条形图代表该提供商 Token 使用量的 100%,按顶级标签细分。

xxx Anthropic. 主要用于编程和技术任务(超过 80%),角色扮演使用量极少。

xx Google. 广泛的使用构成,涵盖法律、科学、技术和一些一般知识查询。

xx xAI. Token 使用量主要集中在编程上,技术、角色扮演和学术在 11 月底更加突出。

xx OpenAI. 随时间推移向编程和技术任务转移,角色扮演和休闲聊天显着减少。

xx DeepSeek. 使用量由角色扮演和休闲互动主导。

xx Qwen. 强烈集中在编程任务上,角色扮演和科学类别随时间波动。

Anthropic 的 Claude 严重偏向 编程 + 技术 用途,合计超过其使用量的 80%。角色扮演和一般问答只是一小部分。这证实了 Claude 定位为针对复杂推理、编码和结构化任务优化的模型;开发者和企业似乎主要将 Claude 用作编码助手和问题解决者。

Google 的模型使用更加多样化。我们看到 翻译科学技术 和一些 一般知识 的显著部分。例如,约 5% 的 Google 使用量是法律或政策内容,另有约 10% 与科学相关。这可能暗示了 Gemini 广泛的训练重点。与其他模型相比,Google 的编码份额相对较少,实际上到 2025 年底还在下降(降至约 18%),并且具有更广泛的长尾类别。这表明 Google 的模型更多地被用作通用信息引擎。

xAI 的使用概况与其他提供商截然不同。在大部分时间里,使用量绝大多数集中在 编程 上,通常超过所有 Token 的 80%。仅在 11 月底,分布才变宽,在 技术角色扮演学术 方面有明显增长。这一急剧转变与 xAI 的模型通过特定消费者应用程序免费分发的时间一致,这可能引入了大量非开发者流量。结果是使用构成融合了早期的开发者核心和突然涌入的通用参与,表明 xAI 的采用路径既受技术用户影响,也受与促销可用性相关的偶发激增影响。

OpenAI 的使用概况在整个 2025 年发生了显着变化。今年早些时候,科学任务占 OpenAI 所有 Token 的一半以上;到 2025 年底,该份额已降至 15% 以下。与此同时,编程和技术相关的使用量现在占总量的超过一半(各占 29%),反映了更深入地集成到开发者工作流、生产力工具和专业应用中。OpenAI 的使用构成现在介于 Anthropic 紧密聚焦的概况和 Google 更分散的分布之间,表明其具有广泛的效用基础,并日益向高价值、结构化任务倾斜。

DeepSeek 和 Qwen 表现出的使用模式与前面讨论的其他模型家族大相径庭。DeepSeek 的 Token 分布由角色扮演、休闲聊天和娱乐导向的互动主导,通常占其总使用量的三分之二以上。只有一小部分活动属于结构化任务,如编程 or 科学。这种模式反映了 DeepSeek 强大的消费者导向及其作为高参与度对话模型的定位。值得注意的是,DeepSeek 在夏末显示出编程相关使用量的适度但稳定的增长,表明在轻量级开发工作流中的逐步采用。

相比之下,Qwen 呈现出几乎相反的概况。在所示的整个期间,编程始终占所有 Token 的 40-60%,表明明确强调技术和开发者任务。与 Anthropic 更稳定的工程密集型构成相比,Qwen 在科学、技术和角色扮演等相邻类别中表现出更高的波动性。这些每周的变化意味着异质的用户群和应用用例的快速迭代。9 月和 10 月角色扮演使用量的显着上升,随后在 11 月收缩,暗示了不断演变的用户行为或下游应用路由的调整。

总之,每个提供商都显示出与其战略重点一致的独特概况。差异突显了为什么没有任何单一模型或提供商能最佳地覆盖所有用例;这也强调了多模型生态系统的潜在好处。

地理:LLM 使用在各地区的差异

全球 LLM 使用表现出明显的区域差异。通过检查地理细分,我们可以推断本地使用和支出如何塑造 LLM 使用模式。虽然下面的数字反映了 OpenRouter 的用户群,但它们提供了区域参与的一个快照。

使用量的区域分布

如下图所示,支出的分布突显了 AI 推理市场日益全球化的性质。北美虽然仍然是最大的单一地区,但在大部分观察期内占总支出的不到一半。欧洲显示出稳定和持久的贡献。其每周支出的相对份额在整个时间线上保持一致,通常在 15% 到 20% 之间。一个显着的发展是亚洲不仅作为前沿模型的生产者,而且作为一个迅速扩张的消费者崛起。在数据集的最早几周,亚洲约占全球支出的 13%。随着时间的推移,这一份额增加了一倍多,在最近期间达到约 31%。

xxx 随时间推移的各世界区域支出量。 归因于每个大洲的全球使用量的每周份额。

大洲份额 (%)
北美洲47.22
亚洲28.61
欧洲21.32
大洋洲1.18
南美洲1.21
非洲0.46

LLM 使用的大洲分布。 源自每个大洲(账单区域)的总 Token 百分比。

国家份额 (%)
美国47.17
新加坡9.21
德国7.51
中国6.01
韩国2.88
荷兰2.65
英国2.52
加拿大1.90
日本1.77
印度1.62
其他 (60+ 国家)16.76

按 Token 量排名的前 10 个国家。 按全球 LLM Token 份额排名的国家。

语言分布

语言Token 份额 (%)
英语82.87
中文 (简体)4.95
俄语2.47
西班牙语1.43
泰语1.03
其他 (合计)7.25

按语言划分的 Token 量。 语言基于所有 OpenRouter 流量中检测到的提示语言。

如上表所示,英语主导了使用量,占所有 Token 的 80% 以上。这既反映了英语模型的普遍性,也反映了 OpenRouter 用户群以开发者为中心的倾向。然而,其他语言,特别是中文、俄语和西班牙语,构成了一个有意义的长尾。简体中文单独占全球 Token 的近 5%,表明双语或中文优先环境中用户的持续参与,特别是考虑到像 DeepSeek 和 Qwen 这样的中国 OSS 模型的增长。

对于模型构建者和基础设施运营商来说,跨地区可用性、跨语言、合规制度和部署设置,正成为一个 LLM 采用既全球化又本地优化的世界中的基本要求。

LLM 用户留存分析

辛德瑞拉“水晶鞋”现象

xx Claude 4 Sonnet

xx Gemini 2.5 Pro

xx Gemini 2.5 Flash

xx OpenAI GPT-4o Mini

xx Llama 4 Maverick

xx Gemini 2.0 Flash

xx DeepSeek R1

xx DeepSeek Chat V3-0324

群组留存率。留存率以 活动留存 衡量,即如果用户在随后的几个月内返回,即使是在一段时间的不活跃之后,也会被计算在内;因此,曲线可能会表现出小的非单调凸起。

这组留存图表捕捉了主要模型中 LLM 用户市场的动态。乍一看,数据由高流失率和快速的群组衰减主导。然而,在这种波动之下是一个更微妙且更有影响力的信号:一小部分早期用户群组随着时间的推移表现出持久的留存。我们将这些称为 基石群组 (Foundational Cohorts)

这些群组不仅是早期采用者;它们代表了其工作负载已实现深度和持久 工作负载-模型契合 的用户。一旦建立,这种契合就会产生经济和认知的惯性,即使新模型出现,这种惯性也能抵制替代。

我们引入辛德瑞拉 水晶鞋效应 作为一个框架来描述这种现象。该假设认为,在一个快速发展的 AI 生态系统中,存在着潜在的高价值工作负载分布,这些工作负载在连续的模型代际中仍未得到解决。每个新的前沿模型实际上都是针对这些开放问题进行“试穿”。当一个新发布的模型恰好符合以前未满足的技术和经济约束时,它就实现了精确的契合——隐喻的“水晶鞋”。

对于工作负载最终“合适”的开发者或组织来说,这种对齐会产生强大的锁定效应。他们的系统、数据管道和用户体验被锚定在首先解决他们问题的模型上。随着成本下降和可靠性增加,重新构建平台的动力急剧减少。相反,没有找到这种契合的工作负载仍处于探索状态,从一个模型迁移到另一个模型以寻找自己的解决方案。

从经验上看,这种模式在 Gemini 2.5 Pro 的 2025 年 6 月群组和 Claude 4 Sonnet 的 2025 年 5 月群组中可以观察到,这些群组在第 5 个月保留了约 40% 的用户,大大高于后续群组。这些群组似乎对应于特定的技术突破(例如,推理保真度或工具使用稳定性),最终使得以前不可能的工作负载成为可能。

  • 率先解决即持久优势。 当一个模型率先 解决 关键工作负载时,经典的先发优势就变得意义重大。早期采用者将模型嵌入到管道、基础设施和用户行为中,导致高切换摩擦。这就创造了一个稳定的平衡,即使新的替代方案出现,模型仍能保留其基石群组。
  • 留存作为能力拐点的指标。 群组级留存模式作为模型差异化的实证信号。一个或多个早期群组的持久留存表明有意义的能力拐点——一类工作负载从不可行转变为可能。缺乏这种模式表明能力相当且差异化深度有限。
  • 前沿窗口的时间限制。 竞争格局施加了一个狭窄的时间窗口,在此窗口内模型可以捕获基石用户。随着后续模型缩小能力差距,形成新基石群组的可能性急剧下降。“辛德瑞拉”时刻,即模型和工作负载精确对齐的时刻,因此是短暂的,但对长期采用动态具有决定性意义。

总之,基础模型的快速能力转变需要重新定义用户留存。每一代新模型都引入了一个短暂的机会来解决以前未满足的工作负载。当这种对齐发生时,受影响的用户形成 基石群组:尽管随后有模型引入,其留存轨迹仍保持稳定。

主导发布异常。 OpenAI GPT-4o Mini 图表极端地显示了这种现象。一个单一的基石群组(2024 年 7 月,橙色线)在发布时建立了主导、粘性的工作负载-模型契合。所有后续群组,在建立这种契合且市场已经继续发展 之后 到达,表现完全相同:它们流失并在底部聚集。这表明建立这种基石契合的窗口是单一的,仅在模型被视为“前沿”的时刻发生。

无契合的后果。 Gemini 2.0 FlashLlama 4 Maverick 图表展示了一个警示故事,说明当这种初始契合从未建立时会发生什么。与其他模型不同,这里没有高性能的基石群组。每个群组的表现都同样糟糕。这表明这些模型从未被视为高价值、高粘性工作负载的“前沿”。它直接进入了 足够好 的市场,因此未能锁定任何用户群。同样,DeepSeek 的混乱图表,尽管总体上取得了压倒性的成功,但也难以建立稳定的基石群组。

回旋镖效应。 DeepSeek 模型引入了更复杂的模式。它们的留存曲线显示出极不寻常的异常:复活跳跃。与典型的单调递减留存不同,几个 DeepSeek 群组在最初的流失期后显示出明显的留存率上升(例如,DeepSeek R1 的 2025 年 4 月群组在第 3 个月左右,以及 DeepSeek Chat V3-0324 的 2025 年 7 月群组在第 2 个月左右)。这表明一些流失的用户正在返回模型。这种“回旋镖效应”表明这些用户在尝试替代品并通过竞争测试确认 DeepSeek 由于卓越的专业技术性能、成本效率或其他独特功能的组合而为其特定工作负载提供了最佳且通常更好的契合度后,又回到了 DeepSeek。

启示。 水晶鞋 现象将留存重新定义为不是结果,而是理解能力突破的透镜。基石群组是真正技术进步的指纹:它们标志着 AI 模型何时从新奇跨越到必要。对于构建者和投资者而言,尽早识别这些群组可能是持久模型-市场优势的最具预测性的信号。

成本与使用动态

使用模型的成本是影响用户行为的关键因素。在本节中,我们关注不同的 AI 工作负载类别如何在成本-使用格局中分布。通过检查类别在双对数成本与使用图上的聚集位置,我们确定了工作负载如何集中在低成本、大容量区域与高成本、专业化细分市场中的模式。我们还参考了与杰文斯悖论效应的相似之处,即较低的成本通常对应于较高的总使用量,尽管我们并不试图正式分析悖论或因果关系。

按类别划分的 AI 工作负载细分分析

xx 按类别划分的对数成本 vs 对数使用量

上面的散点图揭示了 AI 用例的独特细分,根据其总使用量(总 Token)与单位成本(每 100 万 Token 的成本)进行映射。一个关键的初步观察是两个轴都是对数的。这种对数缩放意味着图表上的微小视觉距离对应于现实世界数量和成本的巨大倍数差异。

该图表被 每 100 万 Token 0.73 美元 的中位成本垂直线一分为二,有效地创建了一个四象限框架来简化跨类别的 AI 市场。

请注意,这些最终成本与广告标价不同。高频工作负载受益于缓存,这降低了实际支出并产生了实质上低于公开标价的有效价格。显示的成本指标反映了提示和补全 Token 的混合费率,提供了用户实际上总共支付费用的更准确视图。该数据集还排除了 BYOK(自带密钥)活动,以隔离标准化的、平台中介的使用,并避免来自自定义基础设施设置的扭曲。

高级工作负载(右上): 此象限包含高成本、高使用量的应用,现在包括 technology (技术) 和 science (科学),位于交叉点。这些代表了有价值且被大量使用的专业工作负载,用户愿意为性能或专业能力支付溢价。Technology 是一个显著的异常值,比任何其他类别都昂贵得多。这表明 technology 作为一个用例(可能与复杂的系统设计或架构有关)可能需要更强大和昂贵的模型进行推理,但它保持了高使用量,表明其必要性。

大众市场容量驱动因素(左上): 此象限由高使用量和低廉的、低于或等于平均水平的成本定义。该区域由两个巨大的用例主导:roleplay (角色扮演)、programming (编程) 以及 science (科学)。

  • Programming 作为“杀手级专业”类别脱颖而出,展示了最高的使用量,同时具有高度优化的中位成本。
  • Roleplay 的使用量巨大,几乎可以与 programming 媲美。这是一个惊人的见解:一个面向消费者的角色扮演应用驱动的参与量与顶级专业应用相当。

这两个类别的庞大规模证实了专业生产力和对话娱乐都是 AI 的主要、大规模驱动力。此象限中的成本敏感性是开源模型发现显著优势的地方,如前所述。

专业专家(右下): 此象限包含低容量、高成本的应用,包括 finance (金融)、academia (学术)、health (健康) 和 marketing (营销)。这些是高风险、利基的专业领域。较低的总容量是合乎逻辑的,因为人们咨询 AI 关于“健康”或“金融”的频率远低于“编程”。用户愿意为这些任务支付显着的溢价,可能是因为对准确性、可靠性和特定领域知识的需求极高。

利基实用程序(左下): 此象限具有低成本、低容量任务,包括 translation (翻译)、legal (法律) 和 trivia (冷知识)。这些是功能性的、成本优化的实用程序。Translation 在该组中具有最高的容量,而 trivia 最低。它们的低成本和相对较低的容量表明这些任务可能已被高度优化、“解决”或商品化,可以廉价地获得足够好的替代方案。

如前所述,此图表上最显著的异常值是 technology。它占据了每 Token 最高成本的大幅优势,同时保持高使用率。这强烈表明了一个对高价值、复杂答案(例如,系统架构、高级技术问题解决)具有高支付意愿的细分市场。一个关键问题是,这种高价是由高用户价值(“需求侧”机会)驱动的,还是由高服务成本(“供应侧”挑战)驱动的,因为这些查询可能需要最强大的前沿模型。technology 领域的“玩法”是服务这个高价值市场。能够服务该细分市场的提供商,或许通过高度优化的专家模型,可能会捕获利润率更高的市场。

AI 模型的有效成本与使用量

xx 开源与闭源模型格局:成本 vs. 使用量(双对数刻度)。 每个点代表 OpenRouter 上提供的模型,按来源类型着色。闭源模型聚集在高成本、高使用量象限,而开源模型主导低成本、高容量区域。虚线趋势线几乎是平的,显示成本与总使用量之间的相关性有限。注:该指标反映了提示和补全 Token 的混合平均值,由于缓存,有效价格通常低于标价。BYOK 活动已排除。

上图将模型使用量与每 100 万 Token 的成本(双对数刻度)进行了映射,揭示了整体相关性较弱。x 轴为了方便列出了名义值。趋势线几乎是平的,表明需求相对缺乏价格弹性;价格下降 10% 仅对应于使用量增加约 0.5–0.7%。然而,图表上的分散是巨大的,反映了强烈的市场细分。出现了两个明显的制度:来自 OpenAI 和 Anthropic 的专有模型占据了高成本、高使用量区域,而像 DeepSeek、Mistral 和 Qwen 这样的开放模型占据了低成本、高容量区域。这种模式支持一个简单的启发式方法:闭源模型捕获高价值任务,而开源模型捕获高容量低价值任务。 弱价格弹性表明,即使巨大的成本差异也不能完全转移需求;专有提供商保留了关键任务应用的定价权,而开放生态系统吸收了来自成本敏感用户的容量。

xx AI 模型市场图:成本 vs. 使用量(双对数刻度)。 与上图类似,但每个点按模型提供商着色。

细分市场模型每 1M 价格使用量 (log)结论
高效巨头google/gemini-2.0-flash$0.1476.68低价格和强大的分发使其成为默认的高容量主力
高效巨头deepseek/deepseek-v3-0324$0.3946.55具有竞争力的质量加上低廉的成本驱动大规模采用
高级领导者anthropic/claude-3.7-sonnet$1.9636.87尽管价格昂贵,使用量却非常高,表明对质量和可靠性的偏好
高级领导者anthropic/claude-sonnet-4$1.9376.84企业工作负载似乎对可信赖的前沿模型缺乏价格弹性
长尾qwen/qwen-2-7b-instruct$0.0522.91极低的价格但覆盖范围有限,可能是由于较弱的模型-市场契合度
长尾ibm/granite-4.0-micro$0.0362.95便宜但利基,主要用于有限的设置
高级专家openai/gpt-4$34.0683.53高成本和中等使用量,保留给最苛刻的任务
高级专家openai/gpt-5-pro$34.9653.42针对专注、高风险工作负载的超高级模型。鉴于最近发布,采用仍处于早期阶段。

按细分市场的示例模型。 值从更新的数据集中采样。市场级回归保持近乎平坦,但细分市场级行为差异很大。

上图与前一张图类似,但显示了模型作者。出现了四种使用-成本原型。高级领导者,如 Anthropic 的 Claude 3.7 SonnetClaude Sonnet 4,每 100 万 Token 的成本约为 2 美元,但仍达到高使用量,表明用户愿意为大规模的卓越推理和可靠性付费。高效巨头,如 Google 的 Gemini 2.0 FlashDeepSeek V3 0324,将强大的性能与每 100 万 Token 低于 0.40 美元的价格相结合,并达到类似的使用水平,使它们成为高容量或长上下文工作负载的有吸引力的默认选择。长尾 模型,包括 Qwen 2 7B InstructIBM Granite 4.0 Micro,每 100 万 Token 的价格仅为几美分,但总使用量约为 10^2.9,反映了性能较弱、可见度有限或集成较少带来的限制。最后,高级专家,如 OpenAI 的 GPT-4 和 GPT-5 Pro,占据高成本、低使用量象限:每 100 万 Token 约 35 美元,使用量接近 10^3.4,它们被少量用于利基、高风险工作负载,在这些工作负载中,输出质量远比边际 Token 成本重要。

总体而言,散点图突显了 LLM 市场的定价权并不统一。虽然更便宜的模型可以通过效率和集成来驱动规模,但在高风险领域,高级产品仍然拥有强劲的需求。这种碎片化表明市场尚未商品化,差异化——无论是通过延迟、上下文长度还是输出质量——仍然是战略优势的来源。

这些观察结果表明:

  • 在宏观层面上,需求缺乏弹性,但这掩盖了不同的微观行为。拥有关键任务的企业将支付高价(因此这些模型使用量高)。另一方面,爱好者和开发管道对成本非常敏感,并涌向更便宜的模型(导致高效模型的大量使用)。
  • 有一些 杰文斯悖论 (Jevons Paradox) 的证据:使某些模型非常便宜(且快速)导致人们将它们用于更多任务,最终消耗更多的总 Token。我们在高效巨头组中看到了这一点:随着每 Token 成本下降,这些模型被集成到各处,总消耗量飙升(人们运行更长的上下文、更多迭代等)。
  • 质量和能力通常胜过成本: 昂贵模型(Claude, GPT-4)的大量使用表明,如果一个模型明显更好或具有信任优势,用户将承担更高的成本。通常,这些模型被集成在成本相对于其产生的价值微不足道的工作流中(例如,节省一小时开发时间的代码远超几美元 API 调用的价值)。
  • 相反,仅仅便宜是不够的,模型还必须是 可区分的和足够有能力的。许多定价接近零的开放模型仍然如此,因为它们只是足够好但找不到 工作负载-模型契合度 或者不太可靠,因此开发者犹豫是否要深度集成它们。

从运营商的角度来看,出现了几种战略模式。像 Google 这样的提供商严重倾向于分层产品(最显著的是 Gemini Flash 和 Pro),明确权衡速度、成本和能力。这种分层使得能够按价格敏感性和任务关键性进行市场细分:轻量级任务被路由到更便宜、更快的模型;高级模型服务于复杂或容忍延迟的工作负载。针对用例和可靠性进行优化通常与“削减”价格一样有效。在生产环境中,更快、专用的模型可能优于更便宜但不可预测的模型。这将重点从每 Token 成本转移到了每成功结果成本。相对平坦的需求弹性表明 LLM 尚未成为商品——许多用户愿意为质量、能力或稳定性支付溢价。 差异化仍然具有价值,特别是当任务结果比边际 Token 节省更重要时。

讨论

这项实证研究提供了关于 LLM 实际上如何被使用的数据驱动视角,突出了几个使关于 AI 部署的传统智慧变得微妙的主题:

1. 多模型生态系统。 我们的分析表明,没有任何单一模型主导所有使用。相反,我们观察到一个丰富的 多模型生态系统,闭源和开源模型都占据了显著份额。例如,尽管 OpenAI 和 Anthropic 模型在许多编程和知识任务中处于领先地位,但像 DeepSeek 和 Qwen 这样的开源模型合计服务了总 Token 的很大一部分(有时超过 30%)。这表明 LLM 使用的未来可能是模型无关的和异构的。对于开发者来说,这意味着保持灵活性,集成多个模型并为每个工作选择最佳模型,而不是将一切押注于一个模型的霸权。对于模型提供商来说,这强调了竞争可能来自意想不到的地方(例如,社区模型可能会侵蚀你的部分市场,除非你不断改进和差异化)。

2. 超越生产力的使用多样性。 一个令人惊讶的发现是 角色扮演和娱乐导向使用 的巨大体量。超过一半的开源模型使用是用于角色扮演和讲故事。即使在专有平台上,早期的 ChatGPT 使用中也有很大一部分是在专业用例增长之前的休闲和创造性用途。这反驳了 LLM 主要用于编写代码、电子邮件或摘要的假设。实际上,许多用户与这些模型互动是为了陪伴或探索。这具有重要的启示。它突显了融合叙事设计、情感参与和互动性的面向消费者的应用程序的巨大机会。它提出了个性化的新前沿——进化个性、记住偏好或维持长形式互动的代理。它还重新定义了模型评估指标:成功可能较少取决于事实准确性,而更多取决于一致性、连贯性和维持引人入胜对话的能力。最后,它为 AI 和娱乐 IP 之间的交叉开辟了道路,在互动叙事、游戏和创作者驱动的虚拟角色方面具有潜力。

3. 智能体 vs 人类:代理式推理的兴起。 LLM 使用正在从单轮交互转向 代理式推理,即模型跨多个步骤进行规划、推理和执行。它们不再产生一次性响应,而是协调工具调用、访问外部数据并迭代优化输出以实现目标。早期证据显示多步查询和链式工具使用(我们将其作为代理使用的代理指标)正在增加。随着这一范式的扩展,评估将从语言质量转向任务完成度和效率。下一个竞争前沿是模型如何有效地 执行持续推理,这种转变最终可能会重新定义大规模代理式推理在实践中的意义。

4. 地理展望。 LLM 使用正变得日益 全球化和去中心化,北美以外地区增长迅速。亚洲在总 Token 需求中的份额已从约 13% 上升至 31%,反映了更强的企业采用和创新。与此同时,中国已成为主要力量,不仅通过国内消费,还通过生产具有全球竞争力的模型。更广泛的结论是:LLM 必须在全球范围内有用,在跨语言、跨背景和跨市场中表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。

5. 成本与使用动态。 LLM 市场似乎尚未像商品一样运作:仅凭价格几乎无法解释使用情况。用户在成本与推理质量、可靠性和能力广度之间进行平衡。闭源模型继续捕获高价值、与收入挂钩的工作负载,而开源模型主导低成本和高容量任务。这创造了一种动态平衡——与其说是稳定,不如说是受到来自下方的持续压力。开源模型不断推高 有效前沿,特别是在推理和编码领域(例如 Kimi K2 Thinking),那里的快速迭代和 OSS 创新缩小了性能差距。开源模型的每一次改进都压缩了专有系统的定价权,迫使它们通过卓越的集成、一致性和企业支持来证明溢价的合理性。由此产生的竞争是快速移动、不对称且不断变化的。随着时间的推移,随着质量趋同加速,价格弹性可能会增加,将曾经差异化的市场转变为更具流动性的市场。

6. 留存与辛德瑞拉水晶鞋现象。 随着基础模型突飞猛进,留存已成为防御能力的真正衡量标准。每一次突破都会创造一个短暂的发布窗口,在此窗口内模型可以完美地“契合”高价值工作负载(辛德瑞拉水晶鞋时刻),一旦用户找到这种契合,他们就会留下来。在这种范式中,产品-市场契合等于工作负载-模型契合:率先解决真正的痛点会随着用户围绕该能力建立工作流和习惯而驱动深度、粘性的采用。切换在技术上和行为上都变得昂贵。对于构建者和投资者而言,要观察的信号不是增长,而是留存曲线,即那些在模型更新后仍留下来的基石群组的形成。在一个日益快速移动的市场中,尽早捕获这些重要的未满足需求决定了谁能在下一次能力飞跃后生存下来。

总之,LLM 正成为跨领域(从编程到创意写作)推理类任务的重要计算基底。随着模型继续进步和部署扩展,拥有关于现实世界使用动态的准确见解对于做出明智决策至关重要。人们使用 LLM 的方式并不总是符合预期,并且在不同国家、不同州、不同用例之间存在显着差异。通过大规模观察使用情况,我们可以将对 LLM 影响的理解建立在现实基础上,确保随后的发展,无论是技术改进、产品功能还是法规,都与实际使用模式和需求保持一致。我们希望这项工作能作为更多实证研究的基础,并鼓励 AI 社区在我们构建下一代前沿模型时不断衡量并从现实世界的使用中学习。

局限性

本研究反映了在一个单一平台(即 OpenRouter)上和有限的时间窗口内观察到的模式,仅提供了更广泛生态系统的部分视图。某些维度,如企业使用、本地托管部署或封闭的内部系统,仍在我们的数据范围之外。此外,我们的几项数据分析依赖于 代理指标:例如,通过多步或工具调用来识别代理式推理,或者根据账单而非经过验证的位置数据来推断用户地理位置。因此,结果应被解释为指示性的行为模式,而非底层现象的决定性测量。

结论

这项研究提供了关于大语言模型如何嵌入世界计算基础设施的实证视图。它们现在是工作流、应用程序和代理系统的组成部分,改变了信息的生成、中介和消费方式。

过去的一年催化了该领域构想 推理 方式的阶跃变化。o1 类模型的出现使扩展的深思熟虑和工具使用常态化,将评估从单次基准测试转向基于过程的指标、延迟-成本权衡以及编排下的任务成功率。推理已成为衡量模型如何有效规划和验证以提供更可靠结果的标准。

数据显示 LLM 生态系统在结构上是多元的。没有任何单一模型或提供商占据主导地位;相反,用户根据上下文沿多个轴(如能力、延迟、价格和信任)选择系统。这种异质性不是一个短暂的阶段,而是市场的一个基本属性。它促进了快速迭代并减少了对任何单一模型或堆栈的系统性依赖。

推理本身也在发生变化。多步和工具链接互动的兴起标志着从静态补全向动态编排的转变。用户正在链接模型、API 和工具以实现复合目标,从而产生了可被描述为 代理式推理 的东西。有许多理由相信,代理式推理将超过(如果尚未超过)人类推理。

在地理上,格局正变得更加分散。亚洲的使用份额继续扩大,特别是中国已成为模型开发者和出口者,如 Moonshot AI、DeepSeek 和 Qwen 等玩家的崛起所表明的那样。非西方开源权重模型的成功表明 LLM 是真正的全球计算资源。

实际上,o1 并没有结束竞争。远非如此。它扩展了设计空间。该领域正朝着系统思维而非单一押注、朝着仪器化而非直觉、朝着实证使用分析而非排行榜增量的方向发展。如果过去的一年证明了代理式推理在规模上是可行的,那么下一年将专注于卓越运营:衡量实际任务完成情况,减少分布偏移下的方差,并使模型行为与生产级工作负载的实际需求保持一致。

参考文献

  1. R. Appel, J. Zhao, C. Noll, O. K. Cheche, and W. E. Brown Jr. Anthropic economic index report: Uneven geographic and enterprise AI adoption. arXiv preprint arXiv:2511.15080, 2025. URL https://arxiv.org/abs/2511.15080.
  2. A. Chatterji, T. Cunningham, D. J. Deming, Z. Hitzig, C. Ong, C. Y. Shan, and K. Wadman. How people use chatgpt. NBER Working Paper 34255, 2025. URL https://cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf.
  3. W. Zhao, X. Ren, J. Hessel, C. Cardie, Y. Choi, and Y. Deng. WildChat: 1M ChatGPT interaction logs in the wild. arXiv preprint arXiv:2405.01470, 2024. URL https://arxiv.org/abs/2405.01470.
  4. OpenAI. OpenAI o1 system card. arXiv preprint arXiv:2412.16720, 2024. URL https://arxiv.org/abs/2412.16720.
  5. W. L. Chiang, L. Zheng, Y. Sheng, A. N. Angelopoulos, T. Li, D. Li, H. Zhang, B. Zhu, M. Jordan, J. Gonzalez, and I. Stoica. Chatbot Arena: An open platform for evaluating LLMs by human preference. arXiv preprint arXiv:2403.04132, 2024. URL https://arxiv.org/abs/2403.04132.
  6. J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. H. Chi, F. Xia, Q. Le, and D. Zhou. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022. URL https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html.
  7. S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. ReAct: Synergizing reasoning and acting in language models. International Conference on Learning Representations (ICLR), 2023. URL https://arxiv.org/abs/2210.03629.
  8. A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, et al. The Llama 3 Herd of Models. arXiv preprint arXiv:2407.21783, 2024. URL https://arxiv.org/abs/2407.21783.
  9. DeepSeek-AI, A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, et al. DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437, 2024. URL https://arxiv.org/abs/2412.19437.

贡献

这项工作得益于 OpenRouter 团队开发的基础平台、基础设施、数据集和技术愿景。特别是,Alex Atallah、Chris Clark、Louis Vichy 提供了工程基础和架构方向,使本研究中的探索成为可能。Justin Summerville 在实施、测试和实验改进方面提供了根本性的支持。其他贡献包括 Natwar Maheshwari 的发布支持和 Julian Thayn 的设计编辑。

Malika Aubakirova (a16z) 担任主要作者,负责实验设计、实施、数据分析和论文的全面准备。Anjney Midha 提供了战略指导,并塑造了总体的框架和方向。

Abhi Desai 在 a16z 实习期间支持了早期的探索性实验和系统设置。Rajko Radovanovic 和 Tyler Burkett 在 a16z 全职任职期间,提供了有针对性的技术见解和实践帮助,加强了工作的几个关键组成部分。

所有贡献者都参与了讨论,提供了反馈,并审查了最终手稿。

附录

类别子构成详情

下面的数字细分了三个主要领域的内部子标签结构:角色扮演、编程和技术。每个领域都表现出独特的内部模式,揭示了用户如何在这些类别中与 LLM 互动。

角色扮演(子标签)。 Token 分为 Role-Playing Game 场景 (58%) 和其他创造性对话(角色聊天、叙事共同写作等)。

编程(子标签)。 一般编码任务占多数(没有单一的特定领域占主导地位),Web 开发、数据科学等占较小份额,表明跨编程主题的广泛使用。

技术(子标签)。Intelligent AssistantsProductivity Software 用例主导(合计约 65%),其次是 IT 支持和消费电子产品查询。

这三个领域(角色扮演、技术、编程)都表现出独特的内部模式,反映了用户如何在每个主要领域内的不同子类别中与 LLM 互动。