逆向工程 | FisherAI

本文主要是对OpenAI o1 的逆向工程分析。OpenAI 推出了新的推理系统 o1，这是一个基于强化学习（RL）训练的语言模型，旨在处理复杂的推理任务。o1 与传统的自回归语言模型不同，它在推理时进行在线搜索，并且推理过程中的计算成本显著增加，展示了新的推理扩展规律。尽管 o1 目前只是一个原型，尚未达到产品市场契合度，但它代表了 AI 未来发展的方向。OpenAI 对 o1 的发布采取了透明的态度，承认自己也不完全知道如何最有效地使用该模型，并希望通过用户反馈来完善其功能。 o1 系统的特性： o1 是通过强化学习（RL）训练的，特别注重长推理链条的生成。与传统语言模型不同，o1 在推理过程中进行在线搜索，并且花费更多的推理计算资源，这表明推理扩展规律的存在。 o1 的推理过程更接近于闭环控制系统，而不是简单的自回归生成。强化学习的作用： o1 的训练依赖于强化学习中的“链式思维”方法，系统在推理过程中不断改进自己的表现。强化学习的成功使得 o1 能够在训练时有效探索新的推理路径，并通过更多的推理时间提高模型性能。推理过程中的每一步都可能获得奖励，帮助模型识别并纠正推理中的错误。发布背景与未来展望： o1 的发布被视为一种“预览”，类似于早期的 GPT-3 发布，而非像 ChatGPT 那样的成品。 OpenAI 还没有完全确定 o1 的最佳应用场景，并希望通过用户反馈来定义其用途。尽管 o1 目前的表现尚未达到顶级，但它展示了未来 AI 系统中可能采用的推理和决策方法。推理过程与计算成本： o1 的推理过程非常昂贵，尤其是在推理时生成多个候选答案并进行评分的情况下。 OpenAI 提供的推理时间计算表明，o1 的推理成本并不随着生成的令牌数量呈线性增长，而是受到推理深度和广度的影响。目前 o1 的推理价格为每百万输入令牌 $15，每百万输出令牌 $60。未来的挑战：要在开源社区中复制 o1 的训练过程将非常困难，因为需要大量复杂的前向推理路径和对比示例。 o1 的成功依赖于大量计算资源以及精细的强化学习过程，这对其他公司和研究机构来说是一个巨大的挑战。随着 o1 系统的发展，它可能会被整合到 ChatGPT 等产品中，用于处理更复杂的任务。总结来说，o1 是 OpenAI 推理系统的一次重要尝试，展示了未来 AI 推理模型的发展方向，尽管目前仍处于原型阶段，但它的技术潜力巨大。...