2025 AI 现状报告 • OpenRouter & a16z
这份报告基于 OpenRouter 平台超过 100 万亿 token 的数据,深入分析了截至 2025 年底的大型语言模型(LLM)使用现状。报告揭示了 AI 领域正从简单的文本生成向复杂的多步推理转变,开源模型正在重塑市场格局,且用户的使用习惯呈现出明显的全球化和多样化趋势。 主要观点 从模式匹配到多步推理的范式转变 随着 2024 年 12 月 5 日 OpenAI 发布 o1 模型,AI 领域迎来了转折点。行业重心从单次前向传递的模式生成,转移到了包含内部多步思考和规划的“推理”模型。这种转变加速了代理式(Agentic)工作流的部署。 开源模型与专有模型的双重生态 虽然专有模型(如 Anthropic 和 OpenAI 的产品)在高端任务中仍占主导,但开源模型(OSS)已占据约 30% 的市场份额。特别是来自中国的模型(如 DeepSeek 和 Qwen )增长迅速,不仅在成本上具有优势,在性能上也日益强劲,促使市场形成了多元化的竞争格局。 编程与角色扮演主导应用场景 与普遍认为 AI 主要用于生产力工具的印象不同,数据表明“创造性角色扮演”和“编程辅助”是两大核心用例。开源模型在角色扮演领域尤为流行,而编程任务则推动了长上下文和复杂推理的需求。 “灰姑娘水晶鞋”留存效应 用户留存率分析揭示了一种被称为“灰姑娘水晶鞋”的现象:当一个新模型首次完美解决某类用户的特定痛点(即“合脚”)时,这些早期用户群体会形成极高的忠诚度和长期留存,即使后续有新模型推出也不易流失。 关键细节 数据来源与规模 数据基础:研究基于 OpenRouter 平台上的真实交互元数据,涵盖超过 100 万亿 token 的流量,时间跨度主要集中在 2024 年底至 2025 年底。 隐私保护:分析仅基于元数据(如 token 数量、模型类型、地理位置标签),不涉及具体的提示词或生成内容。 开源模型的崛起与演变 市场份额:开源模型的使用量稳步上升,其中中国开发的开源模型在 2025 年下半年增长显著,部分周次占总流量的近 30% 。 竞争格局:市场不再由单一模型垄断。DeepSeek 曾占据主导,但目前 Qwen 、 Meta LLaMA 、 Mistral AI 等多家厂商均占有重要份额。 模型尺寸:市场出现了“中间地带”。用户不再只选择极小或极大的模型, 150 亿至 700 亿参数的“中等”模型因平衡了能力与效率而受到青睐。 代理式推理(Agentic Inference)的兴起 推理模型占比:到 2025 年底,经过推理优化的模型处理了超过 50% 的 token 流量。 序列长度增加:平均 Prompt(提示词)长度增加了约 4 倍,主要由编程任务驱动。编程任务的输入通常包含大量代码上下文,远超一般对话。 复杂性提升:用户不再只是进行单轮问答,而是越来越多地使用多步工具调用和长上下文交互。 应用类别深度分析 编程(Programming):是增长最快且最具战略意义的类别。 Anthropic 的 Claude 系列在此领域长期占据 60% 以上的份额,但正面临来自 OpenAI 和 MiniMax 等对手的激烈竞争。 角色扮演(Roleplay):在开源模型使用中占比超过 50% 。这表明开源模型因其灵活性和较少的限制,成为互动娱乐和创意写作的首选。 其他类别:科技、翻译和一般知识问答构成了长尾需求。 地理分布与全球化 亚洲崛起:亚洲地区的支出占比从早期的 13% 激增至 31% ,成为重要的 AI 消费和创新中心。 全球格局:虽然英语占主导( >80% ),但中文(简体)是第二大语言,占比近 5% 。北美以外的地区贡献了超过一半的使用量。 成本与使用量的关系 价格弹性弱:整体上,价格降低并未直接带来同比例的使用量激增。市场呈现两极分化: 高价高值:专有模型(如 GPT-4 )价格高昂,但因其在关键任务上的可靠性,需求依然强劲(缺乏弹性)。 低价高量:开源模型以极低的成本承接了海量的、对价格敏感的任务(如角色扮演)。 Jevons 悖论:在某些高效模型(如 Gemini Flash )上观察到了 Jevons 悖论,即成本降低反而导致总 token 消耗量大幅上升。 原文:AI 现状报告 一项基于 OpenRouter 的 100 万亿 Token 实证研究...