介绍一下 GPT-5 在编码上的能力
OpenAI 于 2025年 8 月 8 日发布最新、最强大的、转为开发者设计的 AI 模型——GPT-5。该模型在编码和智能体任务方面树立了新的行业标杆,提供了前所未有的性能、可控性和协作能力。 主要内容 发布新一代模型 GPT-5:GPT-5 是一个专为编码和智能体任务优化的顶尖模型,现已通过 API 平台发布。 卓越的编码与智能体能力:该模型在各项关键基准测试中表现出色,能够高效处理复杂的编码任务,如修复 bug、代码编辑和问答。同时,它在执行需要连续调用多个工具的长期智能体任务方面也达到了业界领先水平。 增强的开发者控制:API 引入了多项新功能,包括用于控制响应速度与质量的 reasoning_effort 参数、调节内容详略的 verbosity 参数,以及支持更灵活工具调用的 custom tools。 多样的模型选择:为满足不同场景下对性能、成本和延迟的需求,GPT-5 提供了三种不同规模的版本:gpt-5、gpt-5-mini 和 gpt-5-nano。 更高的可靠性与安全性:GPT-5 在事实准确性上相比前代模型有显著提升,事实性错误减少了约 80%,使其在处理关键任务时更加值得信赖。 关键细节 性能表现 编码能力: 在 SWE-bench Verified 基准测试中得分 74.9%,超越了 o3 的 69.1%。 在 Aider polyglot 代码编辑测试中得分 88%,错误率比 o3 降低了三分之一。 在前端开发测试中,70% 的情况下优于 o3。 智能体任务: 在 τ2-bench telecom 工具调用基准测试中得分高达 96.7%,远超其他模型。 能够可靠地连续或并行调用数十个工具来完成复杂任务。 长上下文处理: 在 OpenAI-MRCR 测试中全面超越前代模型,尤其在长输入下优势明显。 所有 GPT-5 模型支持最高 272,000 输入 token 和 128,000 输出 token,总上下文长度达 400,000 token。 事实准确性: 在 LongFact 和 FactScore 基准测试中,事实性错误比 o3 减少了约 80%。 新增 API 功能 reasoning_effort 参数:新增 minimal 选项,可在牺牲部分推理深度的情况下实现更快的响应。 verbosity 参数:提供 low、medium、high 三个级别,用于控制模型回答的详细程度。 custom tools (自定义工具):允许模型使用纯文本(plaintext)而非 JSON 格式调用工具,并可通过正则表达式或上下文无关文法进行约束,简化了复杂输入的处理。 模型版本与可用性 API 模型: gpt-5:$1....