OpenAI 于 2024 年 9 月 12 日推出了 o1 和 o1-mini 模型,显著提升了 AI 推理能力。o1 不仅仅是一个新模型,更是一个新范式。ChatGPT 正在从仅使用系统 1 思维(快速、自动、直观、容易出错)发展到系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这使得它能够解决以前无法解决的问题。除了模型的推出,OpenAI 还发布了2篇报告:Introducing OpenAI o1-preview、OpenAI o1-mini,通读这两篇报告,可以对 o1 和 o1-mini 有更深入的了解,我这里摘要了其中的核心内容。
o1
-
模型能力
一种通过强化学习训练的大语言模型,能够执行复杂的推理任务。o1 会在回答前先进行思考——它可以在回复用户之前生成较长的内部思维链。 -
强化学习算法
OpenAI 的大规模强化学习算法通过模型的思维链教会模型如何以高效的数据利用率进行推理。随着强化学习训练时的计算量增加,以及测试时模型思考时间的延长,模型 o1 的性能会持续提升。这种方法在扩展过程中的限制与大语言模型 (LLM) 的预训练有显著不同。 -
思维链方式
就像人类在回答困难问题前可能需要长时间思考一样,o1 在解决问题时也会使用“思维链” (chain of thought)的方式。通过强化学习,o1 不断优化这种思维链,改进其解决问题的策略。它能够识别并修正自己的错误,将复杂的步骤分解成简单的部分,并在当前方法无效时尝试不同的路径。这个学习过程极大地提升了模型的推理能力。 -
考试成绩表现
在 2024 年的 AIME(专为挑战美国顶尖高中生设计的数学竞赛)考试中,GPT-4o 平均只解决了 12%(1.8/15)的题目,而 o1 在每题只使用一个样本的情况下,解决了 74%(11.1/15);使用 64 个样本取共识后,解决率提高到 83%(12.5/15);通过对 1000 个样本进行评分排序,解决率进一步提升到 93%(13.9/15)。13.9 分的成绩足以让 o1 排名进入全国前 500 名,并超过了美国数学奥林匹克的入选线。 -
推理表现
在数据分析、编码和数学等推理密集型类别中,o1-preview 明显优于 gpt-4o。然而,o1-preview 在某些自然语言任务上并不是首选,这表明它并不适合所有用例。 -
视觉感知能力
开启视觉感知能力后,o1 在 MMMU 基准测试中取得了 78.2% 的得分,成为首个能够与人类专家相媲美的模型。同时,它在 MMLU 的 57 个子类别中,有 54 个超越了 GPT-4o 的表现。
o1-mini
-
经济高效的推理模型
一种经济高效的推理模型,在 STEM 方面表现出色,尤其是数学和编码。在 AIME 和 Codeforces 等评估基准上,o1-mini 几乎与 OpenAI o1 的性能相匹配。 -
适用场景
适用于需要推理而无需广泛世界知识的应用程序。 -
模型优化
相比 o1,o1-mini 是一个较小的模型,针对预训练期间的 STEM 推理进行了优化。使用与 o1 相同的高计算强化学习 (RL) 管道进行训练后,o1-mini 在许多有用的推理任务上实现了可比的性能,同时显着提高了成本效率。 -
性能对比
在需要智能和推理的基准上进行评估时,o1-mini 与 o1-preview 和 o1 相比表现良好。然而,o1-mini 在需要非 STEM 事实知识的任务上表现较差。由于其专注于 STEM 推理能力,o1-mini 在日期、传记和琐事等非 STEM 主题上的事实知识可与 GPT-4o mini 等小型 LLMs 相媲美。未来版本将尝试扩展至 STEM 以外的其他领域。- 数学:在高中 AIME 数学竞赛中,o1-mini (70.0%) 与 o1 (74.4%) 具有竞争力,同时价格便宜得多,并且表现优于 o1-preview (44.6%)。
- 编码:在 Codeforces 竞赛网站上,o1-mini 达到了 1650 Elo,接近 o1 (1673),并且高于 o1-preview (1258)。该 Elo 分数使得 o1-mini 处于 Codeforces 平台上竞争程序员中的大约 86%。
- STEM:在一些需要推理的学术基准上,例如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。尽管在 MMLU 等任务上的表现不如 GPT-4o,但在 GPQA 上也略逊于 o1-preview。
-
人类偏好评估
在推理密集型领域中,o1-mini 优于 GPT-4o,但在以语言为中心的领域中不如 GPT-4o。 -
模型速度
o1-mini 得出答案的时间大约是 gpt-4o 的 3-5 倍。 -
安全性与对齐
o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练。与 GPT-4o 相比,该模型在 StrongREJECT 数据集内部版本上的越狱稳健性高出 59%。