推理模型

本文由 Epoch AI 官方博客发布，主要分析推理模型的影响。推理模型的核心思想是在运行时让模型进行更长时间的思考，以找到问题的正确解决方案。这可以通过提示模型逐步思考，展示显式的思维链来实现。早期的 LLM 在简单地被要求长时间思考时表现出较差的扩展性，但通过应用强化学习 (RL) 方法，特别是在奖励模型正确答案的情况下，推理模型的推理质量得到了显著提高。这种方法即使不奖励中间推理步骤，也能促使模型学习生成长的推理链，从而提高推理质量。推理模型的一个重要优势是能够生成高质量的合成训练数据，用于改进未来的推理模型甚至非推理模型。强化学习在推理模型中的成功应用表明，它可以有效地提高 LLM 的性能，并有可能将模型性能提升到超人水平。强化学习最适用于解决方案易于验证的任务，因为这类任务可以提供密集的奖励信号，从而促进高效训练。未来几年内，在数学问题解决和定理证明领域，推理模型将取得显著进展，到 2027 年底，AI 有 3/5 的概率能够在自主证明任意数学定理方面超越顶尖人类数学家。推理模型最有可能成功应用于满足两个关键标准的任务：(1) LLM 预训练数据包含大量与执行任务相关的信息；(2) 解决方案可以低成本且可编程地验证。这些任务被称为 “纯推理任务”。然而，许多经济价值高的任务可能不属于 “纯推理任务” 的范畴。对于视频编辑等任务，由于缺乏高质量的、与任务执行方式直接相关的数据，以及评估质量的反馈成本高昂，AI 在自动化这些任务方面将面临挑战。因此，尽管 AI 在逻辑推理等领域将取得巨大进步，但在自动化需要经验反馈和难以验证的任务方面，仍将面临重大挑战。虽然推理模型提高了外部部署 AI 的效用，也增强了内部使用推理计算的效用（用于生成合成训练数据），但这两种效应可能会大致相互抵消，不会导致计算资源在内部开发和外部部署之间分配的根本性转变。基于以往类似创新的经验，推理模型对商业模式的影响将是平衡的，不会颠覆现有模式。总而言之，推理模型将在未来几年的人工智能发展中发挥重要作用，特别是在自动化 “纯推理任务” 方面。然而，推理模型应被视为人工智能长期发展趋势的一部分，持续扩展 AI 可以执行的任务范围。要充分释放 AI 在自动化所有有价值的经济任务方面的潜力，还需要在多模态、自主性、长期记忆和机器人技术等领域取得更多突破。未来，多智能体协作等新的推理扩展方式可能会成为新的发展方向。原文：推理模型的希望过去一年中，也许最重要的 AI 进展是推理模型 (Reasoning Models) 的兴起——通过强化学习训练的大语言模型 (LLM)，用于解决复杂问题，例如 OpenAI 的 o1，DeepSeek-R1 和 Claude 3.7 Sonnet。这些模型已经展示了卓越的成功，显著增强了 AI 在数学问题解决、科学推理和编码方面的人工智能水平 (AI capabilities)。在本文中，我旨在提出一个清晰的概念框架，以理解推理模型 (Reasoning Models) 可能对世界产生的影响。我的核心论点是，推理模型 (Reasoning Models) 的主要结果将是创造出在“纯推理任务”上具有狭义超人能力的 AI ——具有正确答案且可以低成本验证的抽象任务。例如，我猜测在未来三年内，可能会开发出能够胜过顶尖人类数学家证明任意数学定理的 AI。与此同时，我预测具有经济价值的 AI 性能将会滞后，可靠的 AI 智能体 (AI Agent) 的出现将明显晚于高质量的推理模型 (Reasoning Models)。...

本文由 OpenAI 官方文档翻译而来，介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别，以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型：推理模型 (reasoning models)，例如 o1 和 o3-mini，以及 GPT 模型 (GPT models)，例如 GPT-4o。这两类模型的行为特性有所不同。本指南将介绍： OpenAI 的推理型模型和非推理型 GPT 模型之间的差异何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比与 GPT 模型 (GPT models) 相比，OpenAI 的 o 系列模型在不同任务上各有优势，并且需要的提示方式也不同。它们之间不存在绝对的优劣之分，只是擅长的领域不同。 OpenAI 训练 o 系列模型（可以称它们为“规划者”）能够花费更多时间和精力思考复杂的任务，使它们在以下方面表现出色：制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。这些模型还能以极高的精度和准确性执行任务，非常适合那些通常需要人类专家才能胜任的领域，例如数学、科学、工程、金融和法律服务。另一方面，低延迟、高性价比的 GPT 模型 (GPT models)（可以称它们为“主力”）则专为直接执行任务而设计。在实际应用中，可以利用 o 系列模型来规划解决问题的总体策略，然后使用 GPT 模型 (GPT models) 执行具体任务，尤其是在对速度和成本的考量高于对完美准确性的追求时。如何选择对于你的应用场景，什么才是最重要的？...

推理模型的希望 • Epoch AI

OpenAI官方指南：推理模型最佳实践