2025年1月31日 OpenAI 推出了 o3-mini 模型,这是 OpenAI 推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。
开发者支持
- 支持函数调用、结构化输出和开发者消息
- 支持流式传输
- 支持低、中、高三种推理强度选项
- 不支持视觉功能,对于视觉推理任务仍然需要使用 o1
- 向 API 使用等级 3-5 的开发者开放
可用性
- ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。
- Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户 可以无限制使用。
- 免费用户也可使用 o3-mini ,但需要在消息编辑框中选择“Reason”按钮。
- o3-mini 支持搜索功能
- o1 是更通用的知识推理模型,而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。
- 在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择
o3-mini-high
,这是一个更高智能的版本,但生成响应所需的时间稍长。
能力水平
- 与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。
- 在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。
- 在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。
- 在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。
原文
探索更具性价比的推理能力
我们很高兴地宣布推出 OpenAI o3-mini,这是我们推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。
OpenAI o3-mini 是我们首个支持多项开发者期待功能的小型推理模型,包括函数调用 (function calling) 、结构化输出 (Structured Outputs) 和开发者消息 (developer messages),让模型一发布即可直接投入生产。和 OpenAI o1-mini 以及 OpenAI o1-preview 一样,o3-mini 也支持 流式传输 (streaming) 。此外,开发者还可以根据具体应用场景,在低、中、高三种推理强度 (reasoning effort) 选项中灵活选择。这种灵活性让 o3-mini 在处理复杂问题时可以“更深入地思考”,或者在关注速度时优先考虑低延迟。请注意,o3-mini 不支持视觉功能,需要视觉推理任务的开发者应继续使用 OpenAI o1。今天起,o3-mini 将逐步在 Chat Completions API 、Assistants API 和 Batch API 中向 API 使用等级 3-5 的部分开发者开放。
ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。o3-mini 将取代模型选择器中的 OpenAI o1-mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM 和逻辑问题解决任务的理想选择。作为本次升级的一部分,我们将 Plus 和 Team 用户的消息速率限制从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。此外,o3-mini 现在还支持搜索功能,可以查找最新的答案并提供相关网页链接。这还是一个早期原型,我们正在努力将搜索功能整合到所有推理模型中。
从今天开始,免费用户也可以在 ChatGPT 中体验 OpenAI o3-mini,只需在消息编辑框中选择“Reason”或重新生成回复即可。这是推理模型首次向 ChatGPT 的免费用户开放。
虽然 OpenAI o1 仍然是我们更通用的知识推理模型,但 OpenAI o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high
,这是一个更高智能的版本,但生成响应所需的时间稍长。Pro 用户可以无限制地使用 o3-mini
和 o3-mini-high
。
快速、强大,并为 STEM 推理优化
与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。专家测试人员的评估显示,o3-mini 的答案比 OpenAI o1-mini 更准确、更清晰,推理能力也更强。在测试中,用户在 56% 的情况下更喜欢 o3-mini 的回复,并且在处理复杂的现实问题时,o3-mini 的主要错误减少了 39%。在中等推理强度下,o3-mini 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)中,表现与 o1 相当。
竞赛数学 (AIME 2024)
在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当;在中等推理需求下,o3-mini 的表现与 o1 相当。此外,在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。灰色阴影区域表示在 64 个输入示例上的共识投票(多数投票)性能。
博士级科学问题 (GPQA Diamond)
在博士水平的生物学、化学和物理学问题上,OpenAI o3-mini 在低推理需求下的表现优于 OpenAI o1-mini;在高推理需求下,o3-mini 的表现与 o1 相当。
FrontierMath
在研究级别的数学问题上,OpenAI o3-mini 在高推理需求下的表现优于其前身模型,在 FrontierMath 任务上的表现更优。在 FrontierMath 任务中,当 o3-mini 在提示下使用 Python 工具时,它在高推理需求下首次尝试解决超过 32% 的问题,其中,高难度(T3)问题的解决率超过 28%。
竞赛代码 (Codeforces)
在 Codeforces 算法竞赛编程中,OpenAI o3-mini 在更高推理需求下的 Elo 评分逐步提升,且始终优于 o1-mini。在中等推理需求下,o3-mini 的 Elo 评分与 o1 相当。
软件工程 (SWE-bench Verified)
o3-mini 是我们在 SWEbench-verified 任务上性能最强的已发布模型。关于 SWEbench-verified 任务在高推理需求下的更多结果,包括使用开源的 Agentless scaffold(39%)和内部工具 scaffold(61%)的表现,详情请见我们的系统卡片。
LiveBench 编码
在 LiveBench 编程基准测试中,OpenAI o3-mini 在中等推理需求下依然超越 o1-high,展现了其在编程任务中的高效性。在高推理需求下,o3-mini 进一步扩大领先优势,在关键性能指标上表现更加强劲。
通用知识
o3-mini 在各类通识知识测评中优于 o1-mini。
人类偏好评估
外部专家评测表明,OpenAI o3-mini 生成的答案比 OpenAI o1-mini 更准确、更清晰,并且在推理能力上更强,尤其是在 STEM(科学、技术、工程和数学)领域。测试人员在 56% 的评测中更倾向于 o3-mini 的回答,并观察到在复杂的现实世界问题上,重大错误率下降了 39%。
模型速度与性能
OpenAI o3-mini 的智能程度与 OpenAI o1 相当,但性能更高、效率更优。除了上述 STEM 评估外,在中等推理强度下,o3-mini 在其他数学和事实性评估中也表现出色。在 A/B testing 中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。
o1-mini 与 o3-mini (中等) 的延迟比较
o3-mini 的平均首 Token 响应时间比 o1-mini 低 2500 毫秒。
安全性
我们用来训练 OpenAI o3-mini 安全响应的关键技术之一是深思熟虑的对齐 (deliberative alignment),即训练模型在回复用户提示之前,先对人类编写的安全规范进行推理。和 OpenAI o1 类似,我们发现 o3-mini 在具有挑战性的安全和越狱评估中明显优于 GPT-4o。在部署之前,我们采用了与 o1 相同的准备、外部测试和安全评估方法,仔细评估了 o3-mini 的安全风险。感谢参与 o3-mini 早期测试的安全测试人员。有关评估的详细信息,以及对潜在风险和缓解措施有效性的全面说明,请参阅 o3-mini system card 。
不允许的内容评估
越狱评估
下一步计划
OpenAI o3-mini 的发布标志着 OpenAI 在追求高性价比智能的道路上又迈进了一步。通过优化 STEM 领域的推理能力并保持较低成本,我们正在让高质量的 AI 更容易被大众所用。这款模型延续了我们降低 AI 成本的传统——自 GPT-4 发布以来,每个 token 的价格降低了 95%——同时保持了顶级的推理能力。随着 AI 应用的普及,我们将继续致力于引领前沿,构建在规模上平衡智能、效率和安全性的模型。
致谢
训练
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
评估
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
前沿评估与准备
Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan
工程
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Tomer Kaftan, Trevor Creech
搜索
Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu
产品
Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement
安全
Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang
外部测试
Lama Ahmad, Troy Peterson
研究项目经理
Carpus Chang, Kristen Ying
领导
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba
- 以及所有为 o1 做出贡献的人。