2025 年 12 月 12 日 OpenAI 发布了迄今为止最强大的GPT-5.2 模型,该系列专为提升专业知识型工作的效率和经济价值而设计,在制作电子表格、编写代码、设计演示文稿及处理复杂多步骤项目方面表现出显著优势。

xx

xx

卓越的工作效率与质量

在衡量明确知识型工作任务的 GDPval 评测中, GPT-5.2 刷新了行业水平,成为首个在相关任务上达到或超过人类专家水平的模型。

  • 专家级表现:在涵盖 44 个职业的 GDPval 评测中, GPT-5.2 Thinking 在 70.9% 的任务中表现优于顶尖行业专家或与其持平。
  • 极致效能:在上述任务中,模型的输出速度比专家快 11 倍以上,而成本不到专家的 1%。
  • 办公自动化:在生成复杂的电子表格和幻灯片方面,能力较前代提升了 9.3%,格式和布局更具专业水准。

xxx

编程与工程能力的飞跃

  • 软件工程基准:在模拟真实工业场景的 SWE-bench Pro 测试中取得了 55.6% 的新成绩;在 SWE-bench Verified 中达到了 80% 的高分。
  • 全栈开发助手:在前端开发、复杂 UI(特别是涉及 3D 元素)以及代码调试和重构方面表现更强,减少了人工干预的需求。

xx

xx

可靠性、长文本与视觉能力

  • 错误率降低:相比 GPT-5.1 Thinking,新模型的幻觉率更低,错误回答减少了 38%。
  • 长文档处理:在长达 256k Token 的文本范围内(如 MRCRv2 评测),能保持接近 100% 的信息提取准确率,适合深度文档分析。
  • 视觉理解:在图表推理和软件界面理解方面的错误率减半,对图像元素的空间位置有更强的感知能力。

xx

xx

xx

xx

xx

科研推进与复杂推理

  • 科学研究: GPT-5.2 Pro 在研究生级问答测试 GPQA Diamond 中得分 93.2%,并已在实际数学研究中协助解决了统计学习理论的开放问题。
  • 通用推理:在 ARC-AGI-1 测试中, GPT-5.2 成为首个突破 90% 准确率的模型。

xx

xx

发布、安全与定价

  • 可用性:即日起在 ChatGPT 中向付费套餐用户(如 Plus、Enterprise)陆续推送;API 现已向开发者开放。
  • 安全性:增强了对敏感话题(如自残、心理困扰)的处理能力,并引入了针对未成年人的年龄预测保护机制。
  • 定价:API 价格为每百万输入 Token 1.75 美元,每百万输出 Token 14 美元。虽然单价高于前代,但因效率提升,完成同等质量任务的整体成本可能更低。

附录

详细基准

下面我们将展示 GPT‑5.2 Thinking 的完整基准测试结果,并同时提供一部分 GPT‑5.2 Pro 的相关数据。

专业
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
编码
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
事实性
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
长上下文
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
展望
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
工具使用
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
学术
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
抽象推理
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

在我们的 API 中,模型都以可用的最高推理强度运行(GPT‑5.2 Thinking 与 Pro 使用 xhigh,GPT‑5.1 Thinking 使用 high)。唯一的例外是专业类评测:在这些测试中,GPT‑5.2 Thinking 使用的是 heavy 推理强度,这是 ChatGPT Pro 中可用的最高等级。所有基准测试均在研究环境中完成,因此在某些情况下,结果可能会与正式上线的 ChatGPT 输出略有不同。

\* 在 SWE-Lancer 测试中,我们排除了 40 个无法在当前基础设施上运行的题目(共 237 个题目)。