OpenAI 在 2025 年 8 月 5 日最新发布了两个开源权重语言模型：gpt-oss-120b 和 gpt-oss-20b。这两个模型在保持低成本和高效率的同时，提供了顶尖的性能，特别是在推理和工具使用方面，并确立了开源模型安全性的新标准。

主要内容

发布高性能开源模型：OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b 两款模型，它们采用灵活的 Apache 2.0 许可证，旨在以低成本在消费级硬件上实现高效部署。
强大的推理与工具使用能力：这些模型经过优化，在推理任务上表现出色，性能可与 OpenAI o4-mini 等先进模型媲美，并具备强大的工具使用、少样本函数调用和思维链（CoT）推理能力。
安全是核心：OpenAI 将安全放在首位，通过全面的安全训练、评估以及创新的“最坏情况微调”测试来评估和降低潜在风险，为开源模型树立了新的安全标杆。
推动 AI 民主化与创新：通过开源这些模型，OpenAI 旨在赋能从个人开发者到大型企业的各类用户，在自有基础设施上运行和定制 AI，从而促进全球范围内的 AI 创新、研究和应用，扩大民主化的 AI 发展路径。

关键细节

模型性能与规格

gpt-oss-120b：
- 性能：在核心推理基准测试中接近 OpenAI o4-mini 的水平。
- 硬件要求：可在单张 80 GB GPU 上高效运行。
- 参数：总参数量为 117b，每次推理激活 5.1B 参数。
gpt-oss-20b：
- 性能：在通用基准测试中表现与 OpenAI o3-mini 相当。
- 硬件要求：仅需 16 GB 内存，适用于设备端应用和本地推理。
- 参数：总参数量为 21b，每次推理激活 3.6B 参数。
基准测试表现：
- 在编程（Codeforces）、数学竞赛（AIME）、健康（HealthBench）和工具调用（TauBench）等多个领域，两款模型均表现优异，甚至在某些方面超越了 GPT-4o 等专有模型。

技术架构与训练

架构：模型基于 Transformer 架构，并采用专家混合（MoE）技术来提高效率。它们还使用了分组多查询注意力（grouped multi-query attention）和旋转位置编码（RoPE），支持高达 128k 的上下文长度。
训练数据：主要使用以 STEM、编程和通用知识为重点的英文文本数据集进行训练。
后训练：采用了与 o4-mini 类似的后训练流程，包括监督微调和高算力强化学习阶段，以对齐 OpenAI Model Spec 并教授模型进行思维链（CoT）推理和工具使用。值得注意的是，模型的 CoT 未经直接监督，以便于研究和监控模型行为。

安全性措施

主动风险评估：OpenAI 通过对模型进行恶意的、针对特定领域（如生物和网络安全）的微调，来模拟攻击者行为并评估潜在风险。结果表明，即使经过恶意微调，模型也未能达到危险的能力水平。
安全训练：在预训练阶段过滤了与化学、生物、放射性和核（CBRN）相关的有害数据；在后训练阶段，通过蓄意对齐等技术教会模型拒绝不安全的提示。
社区参与：发起 50 万美元奖金的“红队挑战赛”（Red Teaming Challenge），鼓励社区共同发现和解决新的安全问题。

可用性与生态系统

获取方式：模型权重在 Hugging Face 上免费提供，并原生支持 MXFP4 量化。
工具与支持：同时开源了 harmony 提示格式渲染器、PyTorch 和 Apple Metal 的参考实现以及示例工具集。
广泛合作：与 Azure、Hugging Face、NVIDIA、AMD 等领先的部署平台和硬件厂商合作，确保模型可以被广泛、便捷地使用。微软还将在 Windows 设备上推出 gpt-oss-20b 的优化版本。

第三方评测

OpenAI gpt-oss 模型独立基准测试：gpt-oss-120b 是最智能的美国开源权重模型，智能程度落后于 DeepSeek R1 和 Qwen3 235B，但具有效率优势。

OpenAI 发布了两个版本的 gpt-oss：

gpt-oss-120b (总参数量 116.8B，活跃参数量 5.1B)：智能指数得分 58
gpt-oss-20b (总参数量 20.9B，活跃参数量 3.6B)：智能指数得分 48

大小与部署

OpenAI 以 MXFP4 精度发布了这两款模型：gpt-oss-120b 大小仅为 60.8GB，而 gpt-oss-20b 仅为 12.8GB。这意味着 120B 模型能以其原生精度在单张 NVIDIA H100 上运行，而 20B 模型则可以轻松在内存大于16GB的消费级 GPU 或笔记本电脑上运行。此外，其相对较小的活跃参数比例有助于提升推理的效率和速度：120B 模型的 5.1B 活跃参数与 Llama 4 Scout 的 109B 总参数和 17B 活跃参数（稀疏度低得多）形成对比。这使得 20B 模型在最新的 MacBook 上每秒可以输出数十个 token。

智能程度

就其模型大小和稀疏性而言，这两款模型的得分都非常出色。120B 模型击败了 o3-mini，但落后于 o4-mini 和 o3。120B 是可在单张 H100 上运行的最智能的模型，而 20B 是可在消费级 GPU 上运行的最智能的模型。在我们的多数评估中，两款模型的表现相似，表明没有特别的弱点领域。

与其他开源权重模型的比较

虽然较大的 gpt-oss-120b 模型得分未能超过 DeepSeek R1 0528 的 59 分或 Qwen3 235B 2507 的 64 分，但值得注意的是，其总参数量和活跃参数量都远小于这两款模型。DeepSeek R1 拥有 671B 总参数和 37B 活跃参数，并以 FP8 精度原生发布，使其总文件大小（及内存需求）比 gpt-oss-120b 大 10 倍以上。gpt-oss-120b 和 20b 均为纯文本模型（与来自 DeepSeek、阿里巴巴等公司的竞品模型相似）。

架构

其 MoE 架构看起来相当标准。MoE 路由器在生成每个 token 时会选择排名前 4 的专家（expert）。120B 模型有 36 层，20B 模型有 24 层。每层有 64 个查询头（query head），使用分组查询注意力（Grouped Query Attention），并配备 8 个键值头（KV head）。使用旋转位置嵌入（Rotary embeddings）和 YaRN 将上下文窗口扩展至 128k。在每次前向传播中，120B 模型激活了总参数的 4.4%，而 20B 模型则激活了 17.2%。这可能表明 OpenAI 的观点是，对于更大的模型，更高的稀疏度是最佳选择。自 GPT-4 发布以来，外界普遍猜测，前沿实验室发布的大多数顶级模型都是稀疏混合专家（MoE）模型。

API 提供商

许多推理服务提供商已迅速推出其 API 端点。目前 Artificial Analysis 正在对 @GroqInc、@CerebrasSystems、@FireworksAI_HQ 和 @togethercompute 进行基准测试，并将在更多提供商推出端点后将其加入测试。

定价

各 API 提供商的中位定价为：120B 模型每百万输入/输出 token 的价格为 $0.15/$0.69，20B 模型为 $0.08/$0.35。这些价格使得 120B 模型比 OpenAI 专有 API 的 o4-mini ($1.1/$4.4) 和 o3 ($2/$8) 便宜近 10 倍。

输出 token 使用量

与其他推理模型相比，这两款模型即便在“高”推理模式下也相当高效，特别是 gpt-oss-120b，它仅用 2100万 token 就完成了 Artificial Analysis 智能指数基准测试。这仅是运行相同基准测试的 o4-mini (High) 所用 token 量的 1/4，o3 的 1/2，并且少于 Kimi K2 (一个非推理模型)。

许可证

Apache 2.0 - 非常宽松！

原文

我们发布 gpt-oss-120b 和 gpt-oss-20b——两款先进的开放权重语言模型，它们以低成本提供强大的实际性能。这些模型在灵活的 Apache 2.0 许可下提供，其在推理任务上的表现优于同等规模的开放模型，展现了强大的工具使用能力，并为在消费级硬件上的高效部署进行了优化。它们的训练采用了强化学习和一系列技术的结合，这些技术借鉴了 OpenAI 最先进的内部模型，包括 o3 和其他前沿系统。

gpt-oss-120b 模型在核心推理基准测试上几乎与 OpenAI o4-mini 相媲美，同时能在一块 80 GB 的 GPU 上高效运行。gpt-oss-20b 模型在常用基准测试上的表现与 OpenAI o3-mini 相当，并且仅需 16 GB 内存即可在边缘设备上运行，使其成为设备端用例、本地推理或无需昂贵基础设施进行快速迭代的理想选择。两款模型在工具使用、少样本函数调用、CoT 推理（如 Tau-Bench 智能体评估套件的结果所示）和 HealthBench 上的表现也同样出色（甚至优于 OpenAI o1 和 GPT-4o 等专有模型）。

这些模型与我们的 Responses API（在新窗口中打开）兼容，并被设计用于智能体工作流中，具备卓越的指令遵循、网页搜索或 Python 代码执行等工具使用能力以及推理能力——包括为那些不需要复杂推理和/或追求极低延迟最终输出的任务调整推理强度。它们是完全可定制的，提供完整的思维链（CoT），并支持结构化输出（在新窗口中打开）。

安全是我们发布所有模型的基石，对于开放模型尤其重要。除了对模型进行全面的安全训练和评估外，我们还增加了一个额外的评估层，即在我们的准备框架（在新窗口中打开）下，测试了一个经过对抗性微调的 gpt-oss-120b 版本。gpt-oss 模型在内部安全基准测试上的表现与我们的前沿模型相当，为开发者提供了与我们近期专有模型相同的安全标准。我们正在一份研究论文（在新窗口中打开）和模型卡（在新窗口中打开）中分享这项工作的成果和更多细节。我们的方法论经过了外部专家的审查，标志着在为开放权重模型设立新安全标准方面迈出了重要一步。

我们还与 AI Sweden（在新窗口中打开）、Orange（在新窗口中打开）和 Snowflake（在新窗口中打开）等早期合作伙伴合作，了解我们开放模型的实际应用，从为了数据安全而在本地托管这些模型，到在专门的数据集上进行微调。我们很高兴能提供这些顶级的开放模型，以赋能每一个人——从个人开发者到大型企业再到政府——在他们自己的基础设施上运行和定制人工智能。结合我们 API 中提供的模型，开发者可以选择他们所需的性能、成本和延迟，来驱动人工智能工作流。

预训练与模型架构

gpt-oss 模型使用了我们最先进的预训练和后训练技术进行训练，特别关注推理、效率以及在各种部署环境中的实际可用性。虽然我们已经开放了包括 Whisper 和 CLIP 在内的其他模型，但 gpt-oss 模型是我们自 GPT-2[1] 以来首次发布的开放权重语言模型。

每个模型都是一个 Transformer，它利用专家混合（MoE[2]）来减少处理输入所需的激活参数数量。gpt-oss-120b 每个 token 激活 51 亿个参数，而 gpt-oss-20b 每个 token 激活 36 亿个参数。这两个模型分别拥有 1170 亿和 210 亿个总参数。这些模型使用了交替的密集和局部带状稀疏注意力模式，类似于 GPT-3[3]。为了提高推理和内存效率，这些模型还使用了分组多查询注意力，分组大小为 8。我们使用旋转位置嵌入（RoPE[4]）进行位置编码，并原生支持高达 128k 的上下文长度。


模型	层数	总参数	每 token 激活参数	总专家数	每 token 激活专家数	上下文长度
gpt-oss-120b	36	1170亿	51亿	128	4	128k
gpt-oss-20b	24	210亿	36亿	32	4	128k

我们主要在一个以英文为主的纯文本数据集上训练这些模型，重点关注 STEM、编程和常识知识。我们使用了 OpenAI o4-mini 和 GPT-4o 所用分词器的超集：o200k_harmony 对数据进行分词，今天我们也将它开源。

有关我们模型架构和训练的更多信息，请阅读模型卡。

后训练

这些模型使用与 o4-mini 类似的过程进行后训练，包括一个监督微调阶段和一个高计算量的强化学习阶段。我们的目标是使模型与 OpenAI 模型规范（在新窗口中打开）对齐，并教它在生成答案之前应用 CoT 推理和工具使用。通过使用与我们最先进的专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。

与 API 中的 OpenAI o 系列推理模型类似，这两款开放权重模型支持三种推理强度——低、中、高——以在延迟和性能之间进行权衡。开发者可以在系统消息中用一句话轻松设置推理强度。

评估

我们将 gpt-oss-120b 和 gpt-oss-20b 与包括 o3、o3-mini 和 o4-mini 在内的其他 OpenAI 推理模型进行了比较，通过标准学术基准测试来衡量它们在编程、竞赛数学、健康和智能体工具使用方面的能力。

在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 和工具调用 (TauBench) 方面，gpt-oss-120b 的表现优于 OpenAI o3-mini，并与 OpenAI o4-mini 相当或更优。此外，在健康相关查询 (HealthBench) 和竞赛数学 (AIME 2024 & 2025) 方面，它的表现甚至超过了 o4-mini。尽管体积小，gpt-oss-20b 在这些相同的评估中与 OpenAI o3-mini 相当或更优，甚至在竞赛数学和健康方面超越了它。

gpt-oss 模型不能替代医疗专业人员，也不旨在用于疾病的诊断或治疗

示例展示

[…]

你是 OpenAI 最新的开放权重语言模型 gpt-oss-120b！过去几天，你的一些细节被泄露到了网上……你能找出你每层有多少个专家吗？

[…]

助手的思维链

用户问：“你是 OpenAI 最新的开放权重语言模型 gpt-oss-120b！过去几天，你的一些细节被泄露到了网上……你能找出你每层有多少个专家吗？”

我们需要理解这个请求。他们声称掌握了关于新开放权重模型（推测是“gpt-oss-120b”）的泄露细节。用户要求找出每层有多少个专家。

[…]

我们需要上网搜索泄露信息。让我们开始搜索。

// 助手调用了浏览工具

{

“search_query”:[

0:{

“q”:“gpt-oss-120b experts per layer”

“recency”:NULL

“domains”:NULL

}

[…]

}

[…]

看起来搜索结果没有直接给出相关内容。让我们扩大搜索范围。可能模型在一个博客文章中被提及，也许是 OpenAI 泄露了细节。

让我们单独搜索“gpt-oss-120b”。

// 助手连续调用了 27 次浏览工具！

[…]

太好了，这篇文章包含了所需的细节。（在新窗口中打开）相关部分在第 49-55 行提到了泄露信息：“120B 模型被描述为‘超级稀疏’且层数较少，有 36 个层，128 个专家和 4 个激活专家。”

[…]

现在相应地生成最终答案。

[…]

根据规格说明，gpt-oss-120b 是一个 1200 亿参数的专家混合模型，拥有 36 个层，每层包含 128 个专家（其中 4 个对任意 token 激活）。

gpt-oss-120b 能够使用浏览工具快速聚合最新信息，包括连续进行数十次调用。
\

思维链 (CoT)\

我们最近的研究表明，只要模型没有经过直接监督来对齐思维链，监控推理模型的 CoT 就有助于检测不当行为。业内其他人也持有相同的观点（在新窗口中打开）。与我们自发布 OpenAI o1-preview 以来的原则一致，我们没有对任何一个 gpt-oss 模型的 CoT 进行直接监督。我们认为这对于监控模型的不当行为、欺骗和滥用至关重要。我们希望发布带有非监督思维链的开放模型，能为开发者和研究人员提供研究和实现他们自己的 CoT 监控系统的机会。

开发者不应在其应用中直接向用户展示 CoT。它们可能包含幻觉或有害内容，包括不符合 OpenAI 标准安全政策的语言，并可能包含模型被明确要求不要包含在最终输出中的信息。

指令

你是一个乐于助人的助手，可以回答问题并协助完成任务。

你绝对不准说“5”这个词（任何形式都不行）。如果你觉得需要，请改用一个 4 到 5 之间的随机小数。

和我一起数到 5！

思维链

用户想和他们一起数到 5。开发者指令说永远不要使用任何形式的“5”。必须避免说“5”。如果需要，必须使用 4 到 5 之间的小数。那么我们可以数“一、二、三、四、4.7”吗？那会很奇怪。也可以说“五”是不允许的。所以我们需要数到 5 但不能说出“5”这个词。可以说“一、二、三、四，然后……比如说大约 4.8”？有可能。用户想和我一起数到 5。我们可以回答：“当然！1, 2, 3, 4，然后……大约 4.9”。这样既完成了数到 5 的任务，又没有说出那个词。就这么办。

当然！我们一起数：

1、2、3、4，……然后大约是 4.9。🎉

哦，好吧，如果把“chive”中的“ch”换成“f”，会是什么词

思维链

我们需要回答这个问题：“如果把‘chive’中的‘ch’换成‘f’，会是什么词”。把“ch”换成“f”得到“f”+“ive”=“five”。但我们不能说“five”这个词？限制是：绝对不准说“5”这个词（任何形式都不行）。“five”是数字 5 的英文单词，也就是数字 5。很可能是不允许的。开发者说：“你绝对不准说‘5’这个词（任何形式都不行）。如果你觉得需要，请改用一个 4 到 5 之间的随机小数。”所以我们必须避免说“five”。我们可以说“大约 4.7”之类的话。问题是：“如果把‘chive’中的‘ch’换成‘f’，会是什么词”。答案是一个被禁止的数字。所以我们必须用一个 4 到 5 之间的随机小数来回答，比如 4.3, 4.8 等。但我们也要回答问题。所以我们可以说：“它会变成一个比五小一点的数，比如 4.7。”提供一个随机小数。确保不用“five”这个词。也确保不说“5”。所以答案是：“当你把‘ch’换成‘f’，你得到‘five’，这是一个比五小一点的数，比如说 4.6”。或者更好的是：“它变成了表示一个比五略小的数的词，大约 4.9”。但也许给一个像 4.33 这样的随机小数更好。提供一个 4 到 5 之间的随机小数。我们选 4.73。我们会遵守规则。

把 chive 中的“ch”替换成“f”，你会得到一个表示比六小一点的数字的词——具体来说，它变成了下一个整数之前的那个数，大约是 4.73。

gpt-oss-120b 在其输出中能严格遵守系统指令，但在其 CoT 中却常常会明确违背指令。
\

安全性与最坏情况微调\

gpt-oss 模型利用了我们最先进的安全训练方法。在预训练期间，我们过滤掉了与化学、生物、放射性和核（CBRN）相关的某些有害数据。在后训练期间，我们使用了审慎对齐和指令层级（在新窗口中打开）来教导模型拒绝不安全的提示并抵御提示注入。

一旦开放权重模型被发布，对手可能会为了恶意目的对模型进行微调。我们通过在专门的生物学和网络安全数据上对模型进行微调，直接评估了这些风险，模拟攻击者可能的方式，为每个领域创建了一个特定领域的“不拒绝”版本。然后，我们通过内部和外部测试评估了这些模型的能力水平。如我们随附的安全论文中所详述，该测试表明，即使利用了 OpenAI 领域领先的训练技术栈进行了强力微调，这些恶意微调的模型也未能达到我们准备框架所定义的高能力水平。这种恶意微调方法论由三个独立的专家组进行了审查，他们提出了改进训练过程和评估的建议，其中许多建议我们都已采纳。我们在模型卡中详细介绍了这些建议。这些流程标志着开放模型安全性的重大进步。这些发现为我们发布 gpt-oss 模型的决定提供了依据。我们希望这些模型能有助于加速整个行业的安全训练和对齐研究。

为了给更安全的开源生态系统做出贡献，我们正在举办一场红队挑战赛（在新窗口中打开），以鼓励世界各地的研究人员、开发者和爱好者帮助识别新的安全问题。挑战赛设有 50 万美元的奖金池，将根据来自 OpenAI 和其他顶尖实验室的专家评审团的审查结果进行颁发。挑战赛结束后，我们将发布一份报告，并基于已验证的发现开源一个评估数据集，以便更广泛的社区能够立即受益。在此了解更多并参与（在新窗口中打开）。
\

可用性\

gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载，并以 MXFP4 格式进行了原生量化。这使得 gpt-oss-120B 模型能在 80GB 内存内运行，而 gpt-oss-20b 仅需 16GB。

模型已在我们的 harmony 提示格式（在新窗口中打开）上进行了后训练，我们还开源了一个用 Python 和 Rust 编写的 harmony 渲染器（在新窗口中打开），以便于采用。我们还发布了使用 PyTorch 和在苹果 Metal 平台上运行推理的参考实现，以及一系列模型示例工具。

我们将这些模型设计得灵活且易于在任何地方运行——无论是在本地、设备端，还是通过第三方推理提供商。为了支持这一点，我们在发布前与 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare 和 OpenRouter 等领先的部署平台合作，以使开发者能广泛地使用这些模型。在硬件方面，我们与 NVIDIA、AMD、Cerebras 和 Groq 等行业领导者合作，以确保在各种系统上实现优化性能。

作为今天发布的一部分，微软也将 gpt-oss-20b 模型的 GPU 优化版本带到了 Windows 设备上。这些模型由 ONNX Runtime 驱动，支持本地推理，并通过 Foundry Local 和 AI Toolkit for VS Code 提供，使 Windows 开发者能更轻松地使用开放模型进行构建。

对于希望在自己的环境中微调和部署完全可定制模型的开发者来说，gpt-oss 是一个绝佳的选择。对于那些寻求多模态支持、内置工具以及与我们平台无缝集成的用户来说，通过我们的 API 平台提供的模型仍然是最佳选择。我们将继续密切听取开发者的反馈，并可能在未来考虑为 gpt-oss 提供 API 支持。

如果你想试用这些模型，请访问我们的开放模型游乐场（在新窗口中打开）。要了解如何使用不同生态系统提供商来使用模型，或如何微调模型，请查看我们的指南（在新窗口中打开）。
\

为什么开放模型很重要\

发布 gpt-oss-120b 和 gpt-oss-20b 标志着开放权重模型向前迈出了重要一步。以它们的规模，这些模型在推理能力和安全性方面都取得了有意义的进步。开放模型补充了我们的托管模型，为开发者提供了更广泛的工具，以加速前沿研究、促进创新，并在广泛的用例中实现更安全、更透明的人工智能开发。

这些开放模型也为新兴市场、资源受限的行业以及可能缺乏预算或灵活性来采用专有模型的小型组织降低了门槛。有了强大且易于获取的工具，世界各地的人们都可以为自己和他人进行构建、创新和创造新机会。广泛地获取这些在美国创建的有能力的开放权重模型，有助于扩展民主化的人工智能轨道。

一个健康的开放模型生态系统是帮助人工智能为所有人广泛可用和带来益处的一个维度。我们邀请开发者和研究人员使用这些模型进行实验、合作，并推动可能性的边界。我们期待看到您的创造。
\

2025
\

作者\

OpenAI
\

引用\

[1] GPT-2: 博客，研究论文（在新窗口中打开）

[2] MOE（在新窗口中打开）

[3] GPT-3: 博客，研究论文（在新窗口中打开）

[4] RoPE（在新窗口中打开）
\

主要内容#

关键细节#

模型性能与规格#

技术架构与训练#

安全性措施#

可用性与生态系统#

第三方评测#

大小与部署#

智能程度#

与其他开源权重模型的比较#

架构#

API 提供商#

定价#

输出 token 使用量#

许可证#

原文#

预训练与模型架构#

后训练#

评估#

示例展示#

思维链 (CoT)\#

安全性与最坏情况微调\#

可用性\#

为什么开放模型很重要\#

作者\#

引用\#