2025 | FisherAI

Andrej Karpathy：2025 LLM 年度回顾 - 5大关键范式转变与 Vibe Coding

本文翻译自 Andrej Karpathy 发布在 X 上的对于 2025 年 LLM 的年度回顾：2025 LLM Year in Review. 2025 年是 LLM（大型语言模型）取得长足进步且充满大事的一年。以下是一份我个人认为值得注意且略显意外的“范式转变”清单——这些事物改变了格局，并在概念上令我印象深刻。 1. 基于可验证奖励的强化学习 (RLVR) 在 2025 年初，各大实验室的 LLM 生产技术栈看起来大概是这样的：预训练 (Pretraining, 约 2020 年的 GPT-2/3) 监督微调 (Supervised Finetuning, 约 2022 年的 InstructGPT) 基于人类反馈的强化学习 (RLHF, 约 2022 年) 在很长一段时间里，这是训练生产级 LLM 的稳定且行之有效的配方。在 2025 年，基于可验证奖励的强化学习 (RLVR) 崛起，成为了这一组合中事实上的新增主要阶段。通过在多个环境（例如数学/代码谜题）中针对可自动验证的奖励来训练 LLM，LLM 自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤，并学会了多种反复推敲以弄清问题的解题策略（参见 DeepSeek R1 论文中的例子）。这些策略在以前的范式中很难实现，因为对于 LLM 来说，最佳的推理轨迹和纠错方式是什么并不明确——它必须通过针对奖励的优化，自己找到行之有效的方法。与 SFT 和 RLHF 阶段（这两个阶段相对较薄/较短，计算上只是微小的微调）不同，RLVR 涉及针对客观（不可被操纵）奖励函数的训练，这允许进行更长时间的优化。事实证明，运行 RLVR 提供了极高的能力/成本比，它吞噬了原本用于预训练的计算资源。因此，2025 年的大部分能力进步都是由 LLM 实验室消化这一新阶段的“剩余红利”所定义的，总体而言，我们看到了体量相似的 LLM，但 RL 运行时间要长得多。此外，这一新阶段独有的是，我们获得了一个全新的旋钮（以及相关的缩放定律），可以通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI o1（2024 年末）是 RLVR 模型的首次演示，但 o3 的发布（2025 年初）是一个明显的拐点，你能直观地感受到这种差异。...

2025 AI 现状报告 • OpenRouter & a16z

这份报告基于 OpenRouter 平台超过 100 万亿 token 的数据，深入分析了截至 2025 年底的大型语言模型（LLM）使用现状。报告揭示了 AI 领域正从简单的文本生成向复杂的多步推理转变，开源模型正在重塑市场格局，且用户的使用习惯呈现出明显的全球化和多样化趋势。主要观点从模式匹配到多步推理的范式转变随着 2024 年 12 月 5 日 OpenAI 发布 o1 模型，AI 领域迎来了转折点。行业重心从单次前向传递的模式生成，转移到了包含内部多步思考和规划的“推理”模型。这种转变加速了代理式（Agentic）工作流的部署。开源模型与专有模型的双重生态虽然专有模型（如 Anthropic 和 OpenAI 的产品）在高端任务中仍占主导，但开源模型（OSS）已占据约 30% 的市场份额。特别是来自中国的模型（如 DeepSeek 和 Qwen ）增长迅速，不仅在成本上具有优势，在性能上也日益强劲，促使市场形成了多元化的竞争格局。编程与角色扮演主导应用场景与普遍认为 AI 主要用于生产力工具的印象不同，数据表明“创造性角色扮演”和“编程辅助”是两大核心用例。开源模型在角色扮演领域尤为流行，而编程任务则推动了长上下文和复杂推理的需求。 “灰姑娘水晶鞋”留存效应用户留存率分析揭示了一种被称为“灰姑娘水晶鞋”的现象：当一个新模型首次完美解决某类用户的特定痛点（即“合脚”）时，这些早期用户群体会形成极高的忠诚度和长期留存，即使后续有新模型推出也不易流失。关键细节数据来源与规模数据基础：研究基于 OpenRouter 平台上的真实交互元数据，涵盖超过 100 万亿 token 的流量，时间跨度主要集中在 2024 年底至 2025 年底。隐私保护：分析仅基于元数据（如 token 数量、模型类型、地理位置标签），不涉及具体的提示词或生成内容。开源模型的崛起与演变市场份额：开源模型的使用量稳步上升，其中中国开发的开源模型在 2025 年下半年增长显著，部分周次占总流量的近 30% 。竞争格局：市场不再由单一模型垄断。DeepSeek 曾占据主导，但目前 Qwen 、 Meta LLaMA 、 Mistral AI 等多家厂商均占有重要份额。模型尺寸：市场出现了“中间地带”。用户不再只选择极小或极大的模型， 150 亿至 700 亿参数的“中等”模型因平衡了能力与效率而受到青睐。代理式推理（Agentic Inference）的兴起推理模型占比：到 2025 年底，经过推理优化的模型处理了超过 50% 的 token 流量。序列长度增加：平均 Prompt（提示词）长度增加了约 4 倍，主要由编程任务驱动。编程任务的输入通常包含大量代码上下文，远超一般对话。复杂性提升：用户不再只是进行单轮问答，而是越来越多地使用多步工具调用和长上下文交互。应用类别深度分析编程（Programming）：是增长最快且最具战略意义的类别。 Anthropic 的 Claude 系列在此领域长期占据 60% 以上的份额，但正面临来自 OpenAI 和 MiniMax 等对手的激烈竞争。角色扮演（Roleplay）：在开源模型使用中占比超过 50% 。这表明开源模型因其灵活性和较少的限制，成为互动娱乐和创意写作的首选。其他类别：科技、翻译和一般知识问答构成了长尾需求。地理分布与全球化亚洲崛起：亚洲地区的支出占比从早期的 13% 激增至 31% ，成为重要的 AI 消费和创新中心。全球格局：虽然英语占主导（ >80% ），但中文（简体）是第二大语言，占比近 5% 。北美以外的地区贡献了超过一半的使用量。成本与使用量的关系价格弹性弱：整体上，价格降低并未直接带来同比例的使用量激增。市场呈现两极分化：高价高值：专有模型（如 GPT-4 ）价格高昂，但因其在关键任务上的可靠性，需求依然强劲（缺乏弹性）。低价高量：开源模型以极低的成本承接了海量的、对价格敏感的任务（如角色扮演）。 Jevons 悖论：在某些高效模型（如 Gemini Flash ）上观察到了 Jevons 悖论，即成本降低反而导致总 token 消耗量大幅上升。原文：AI 现状报告一项基于 OpenRouter 的 100 万亿 Token 实证研究...

2025 AI 状况报告深度解读：从“超级智能”竞赛到全球博弈，一文看懂 AI 新格局

本文概述了《2025 年人工智能状况报告》的核心内容，该报告是第八次年度发布，旨在追踪人工智能领域的最新进展。报告从研究、产业、政治和安全四个维度，全面分析了过去一年中 AI 领域的重大突破、商业应用、地缘政治动态以及日益凸出的安全挑战。过去一年，人工智能领域在技术能力、商业化和全球影响力方面都取得了飞速发展。研究层面，具备“先思考后回答”能力的推理模型成为前沿，而中国开源模型的崛起重塑了全球生态。产业层面，AI-first 公司的收入规模已达数百亿美元，算力竞赛推动了对能源和定制芯片的巨大需求，形成了复杂的资本循环。政治层面，中美之间的 AI 竞赛愈演愈烈，美国转向“美国优先”的 AI 出口战略，而中国则加速技术自给自足；同时，“主权 AI”概念兴起，吸引了大量国家级投资。安全层面，AI 带来的风险日益具体，从网络安全到生物风险，各大实验室开始部署前所未有的防护措施，但“对齐欺骗”等深层问题的发现也揭示了现有技术的脆弱性。概要研究进展推理模型的竞赛与挑战: 以 OpenAI 的 o1 和 GPT-5、DeepSeek 的 R1 为代表的推理模型成为焦点，它们通过“思考”过程提升了在代码、科学等复杂领域的表现。然而，研究表明当前的推理能力提升可能存在“虚幻”成分，模型表现对提示词、解码参数等微小变化高度敏感，且容易在无关信息的干扰下出错。开源生态的演变: 以 DeepSeek 和阿里巴巴 Qwen 为首的中国开源模型迅速崛起，其性能和多样性吸引了全球开发者，Qwen 在 Hugging Face 上的衍生模型数量已超越 Meta 的 Llama。 OpenAI 时隔数年发布了首个开源模型 gpt-oss，以响应美国政府推动开源领导力的号召。世界模型与科学发现: AI 从生成固定的视频片段（如 Sora 2）发展到可实时交互的“世界模型”（如 Genie 3），为训练具身智能体提供了强大平台。 AI 在科学发现中扮演了更重要的角色，例如 DeepMind 的 AlphaEvolve 发现了新的矩阵乘法算法，而 MatterGen 等模型则实现了从预测材料性质到直接生成新材料的跨越。产业动态商业化与收入规模: AI-first 公司的商业化进程显著加速，头部 16 家公司的年化总收入已达 185 亿美元。企业对 AI 的付费采用率从 2023 年的 5% 飙升至 2025 年的 43....

2025 年第二季度全球 AI 进展简报

本摘要概述了 Artificial Analysis 发布的《2025 年第二季度 AI 状况报告》的重点内容，分析了人工智能行业在模型、应用和硬件方面的最新进展与趋势。核心内容行业进入成熟期，竞争格局重塑：2025 年第二季度，AI 行业展现出显著的成熟迹象。在语言模型领域，xAI 的 Grok 4 首次超越 OpenAI，成为智能水平最高的模型，标志着前沿领域的竞争愈发激烈。同时，中国 AI 实验室在开源语言模型和视频生成技术方面表现出强大的领导力。 AI 代理 (Agents) 应用爆发：AI 代理技术正从实验阶段迅速走向实际生产应用，尤其是在编程领域。本季度涌现出大量编码代理产品，它们通过自主执行复杂任务，显著提升了开发效率，成为推动 AI 应用落地的关键力量。多模态技术持续突破：虽然文本生成图像的进展放缓，但视频生成技术取得了突破性进展，无论在视频质量还是在音视频同步生成方面（如 Google Veo 3）都达到了新的高度。语音合成技术也朝着更真实、更低成本的方向发展。算力需求与硬件迭代加速：随着模型日益复杂及代理应用的普及，对计算资源的需求急剧增加。NVIDIA 推出的新一代加速器 B200 在性能上远超前代产品，行业关注点也从单个芯片的性能转向整个系统的综合表现，以应对更大规模的训练和推理挑战。关键细节语言模型 (Language Models) 智能水平排名：根据 Artificial Analysis 智能指数，xAI 的 Grok 4 以 73 分的成绩位居榜首，超越了 OpenAI 的 o3-pro (71 分) 和 Google 的 Gemini 2.5 Pro (70 分)。开源模型崛起：以 DeepSeek R1 为代表的开源模型在性能上已接近顶级专有模型，其中，来自中国的 DeepSeek、MiniMax 和 Alibaba 等实验室在开源领域处于领先地位。成本与效率：模型推理成本大幅下降，前沿水平（智能指数 ≥ 50）的推理价格在第二季度下降了近 75%。然而，推理（Reasoning）模型和 AI 代理等新应用会消耗高达 10 倍以上的计算资源，导致总体算力需求持续增长。 AI 代理 (AI Agents) 产品快速增长：仅在 2025 年第二季度，市场上就出现了 12 款主要的编码代理新产品，包括来自 OpenAI 和 Google 的工具。市场采纳情况：在 AI 编码工具中，GitHub Copilot 和 Cursor 的市场需求最高，占据主导地位。成本影响：代理工作流会增加 token 和工具的使用量，从而推高成本。例如，一次深度研究查询的费用最高可达 28 美元。多模态模型 (Image, Video & Speech) 视频技术突破：Bytedance 的 Seedance 1....

2025 年科技和 AI 的十大预测 • Ashu Garg

本文由 Foundation Capital 合伙人 Ashu Garg 撰写，回顾了 2024年科技界的里程碑，并探讨了 2025 年的前景。核心内容包括： AI 成本与普及从 2021 年 GPT-3 的每百万标记 $60 的成本，到 2024 年 Meta 的 Llama 3.2 降至 $0.06，这一成本下降速度创下历史记录。 AI 已渗透至多个行业，其市场影响力占 S&P 500 市值的约一半。技术进步与系统架构 AI 模型的进步正在转向推理能力，例如 OpenAI 的 o3 模型通过生成详细的推理路径，在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。推理能力的提升需要更高的计算成本，但效率改进将推动未来发展。未来的竞争将集中于系统架构，而非模型规模。商业模式与市场扩展 AI 正在从传统的软件预算转向更大的服务市场，其目标是直接完成工作，而非仅提供工具。成果导向的定价模式正在兴起，挑战传统软件公司的收入模式。硬件市场的变化预训练的高吞吐量需求使 NVIDIA 占据主导地位，但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。多家科技巨头（如苹果、微软、谷歌等）和初创公司正在开发定制芯片。 AI 原生平台与用户体验 AI 原生平台正在重新定义企业软件，如销售平台从文本记录转向多模态处理。新的用户界面将支持更复杂的 AI 交互，如 OpenAI 的 Canvas 和 Google’s NotebookLM。搜索与信息获取的变革 AI 原生搜索（如 ChatGPT 和 Perplexity）正在取代传统搜索引擎，提供直接的综合答案。 Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。开源与多模型战略 Meta 的 Llama 开源模型正在成为行业标准，降低了 AI 开发的进入门槛。企业正在采用多模型战略，避免对单一模型的依赖。自动驾驶与社会信任 Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。自动驾驶的普及将带来安全、生产力和城市设计的改善。初创公司的机遇开源模型和推理策略的进步使小型团队能够与大公司竞争，特别是在垂直领域和“最后一公里”应用中。人类创造力与 AI 的未来技术限制正在减少，AI 的未来发展将更多依赖于人类的创造力和想象力。原文对我来说，2024年科技领域的故事可以用一个数字来概括：1000倍。...