2025 年 11 月 25 日,Anthropic 正式发布了 Claude Opus 4.5 ,这是目前在编程、智能体(Agent)协作以及计算机操作领域最先进的模型。它在处理深度研究、幻灯片制作和电子表格等日常任务上也有显著提升,代表了 AI 系统能力的又一次飞跃。

关键细节

卓越的编程与推理能力

  • 超越人类的测试成绩:在 Anthropic 内部用于招聘的高难度工程测试中,Claude Opus 4.5 在 2 小时的时间限制内,得分超过了以往所有的人类候选人。
  • 基准测试提升:在 Terminal Bench 测试中,该模型比 Sonnet 4.5 提升了 15% ;在 Excel 自动化任务中,准确率提升了 20% ,效率提升了 15% 。
  • 创造性解决问题:在 $\tau$-bench 测试中(模拟航空公司客服),模型展示了极高的灵活性,通过“先升舱再改签”的合规策略解决了看似无法处理的修改航班请求,体现了深度的推理能力。

成本效益与开发工具

  • 定价与获取:开发者现在可以通过 API 使用 claude-opus-4-5-20251101 ,定价为每百万 token $5 / $25 ,这使得 Opus 级别的能力更加普及。
  • 效率提升:在处理长程编程任务时,该模型可节省高达 65% 的 token 用量。工具调用错误和构建错误减少了 50% 到 75% 。
  • 新的控制参数:API 新增了 “effort parameter” (努力程度参数),允许开发者在速度/成本与极致性能之间进行权衡。在最高设定下,其表现超出 Sonnet 4.5 4.3 个百分点,同时 token 消耗减少 48% 。

应用集成与战略合作

  • 产品更新:Claude Code 现在提供桌面应用,支持并行任务处理;Claude for Excel 和 Claude for Chrome 功能已向更多用户开放;Notion Agent 也首次集成了 Opus 模型。
  • 战略伙伴:Microsoft 、 NVIDIA 和 Anthropic 宣布了新的战略合作伙伴关系。Claude 将由 NVIDIA 提供算力支持并在 Microsoft Azure 上运行,Anthropic 承诺购买价值 300 亿美元的 Azure 算力。

原文:隆重推出 Claude Opus 4.5

我们最新的模型 Claude Opus 4.5 今天正式上线。它智能、高效,是世界上用于编程、智能体(Agents)和计算机操作的最佳模型。它在深度研究以及处理幻灯片和电子表格等日常任务方面也有显著提升。Opus 4.5 是 AI 系统能力的一大进步,也是未来工作方式更大变革的预演。

Claude Opus 4.5 在现实世界软件工程测试中处于最先进水平:

比较前沿模型在 SWE-bench Verified 上表现的图表,其中 Opus 4.5 得分最高

Opus 4.5 今天已在我们的应用程序、API 以及所有三大云平台上推出。如果您是开发者,只需通过 Claude API 使用 claude-opus-4-5-20251101。现在的定价为每百万 token $5/$25——这使得更多用户、团队和企业能够获得 Opus 级别的能力。

除了 Opus,我们还发布了 Claude 开发者平台Claude Code 以及我们的 消费者应用的更新。我们为长运行智能体提供了新工具,并提供了在 Excel、Chrome 和桌面上使用 Claude 的新方法。在 Claude 应用中,长对话不再受限。详情请见下方的产品专区。

初步印象

当我们的 Anthropic 同事在发布前测试该模型时,我们收到了非常一致的反馈。测试人员指出,Claude Opus 4.5 能够处理模棱两可的问题,并在无需引导的情况下权衡利弊。他们告诉我们,当面对复杂的多系统错误时,Opus 4.5 能找出修复方案。他们说,就在几周前对 Sonnet 4.5 来说几乎不可能完成的任务,现在已触手可及。总的来说,我们的测试人员告诉我们,Opus 4.5 真的“懂了”。

许多获得早期访问权限的客户也有类似的经历。以下是他们告诉我们的一些例子:

logo

Opus 模型一直都是“真正的 SOTA(最先进技术)”,但过去成本过高。Claude Opus 4.5 现在的价格点使其可以成为大多数任务的首选模型。它是明显的赢家,展示了我们目前见过的最佳前沿任务规划和工具调用能力。

logo

Claude Opus 4.5 提供高质量的代码,并擅长利用 GitHub Copilot 驱动高强度的智能体工作流。早期测试表明,它在超越内部代码基准测试的同时,将 token 使用量减少了一半,并且特别适合代码迁移和重构等任务。

logo

Claude Opus 4.5 在我们的内部基准测试中击败了 Sonnet 4.5 和竞争对手,用更少的 token 解决了相同的问题。在大规模应用下,这种效率优势会倍增。

logo

Claude Opus 4.5 在 Lovable 的聊天模式中提供了前沿的推理能力,用户可以在其中规划和迭代项目。其推理深度彻底改变了规划过程——而优秀的规划让代码生成更加出色。

logo

Claude Opus 4.5 擅长长跨度的自主任务,尤其是那些需要持续推理和多步执行的任务。在我们的评估中,它处理复杂工作流时的死胡同更少。在 Terminal Bench 上,它比 Sonnet 4.5 提升了 15%,这一显著收益在使用 Warp 的规划模式(Planning Mode)时尤为明显。

logo

Claude Opus 4.5 在我们的基准测试中为复杂的企业任务取得了最先进的结果,在结合信息检索、工具使用和深度分析的多步推理任务上超越了之前的模型。

logo

Claude Opus 4.5 在最关键的地方带来了可衡量的收益:在我们最困难的评估中取得了更强的结果,并在 30 分钟的自主编码会话中保持了稳定的表现。

logo

Claude Opus 4.5 代表了自我改进 AI 智能体的突破。在办公自动化方面,我们的智能体能够自主优化自身能力——在 4 次迭代中达到峰值性能,而其他模型在 10 次迭代后仍无法达到该质量。

logo

Claude Opus 4.5 相比 Cursor 内之前的 Claude 模型有显著提升,在困难的编程任务上具有更好的性价比和智能水平。

logo

Claude Opus 4.5 是 Anthropic 推动通用智能前沿的又一例证。它在困难的编码任务中表现极其出色,展示了长期的目标导向行为。

logo

Claude Opus 4.5 完成了一项令人印象深刻的重构,跨越了两个代码库和三个协同智能体。它非常彻底,帮助制定了稳健的计划,处理细节并修复测试。相比 Sonnet 4.5 迈出了清晰的一步

logo

Claude Opus 4.5 处理长跨度编码任务的效率比我们测试过的任何模型都高。它在保留测试中实现了更高的通过率,同时减少了高达 65% 的 token 使用量,让开发者在不牺牲质量的情况下真正控制成本。

logo

我们发现 Opus 4.5 擅长解读用户的真实意图,一次尝试即可生成可分享的内容。结合其速度、token 效率和惊人的低成本,这是我们首次在 Notion Agent 中提供 Opus。

logo

Claude Opus 4.5 擅长长上下文故事创作,能生成结构严谨、连贯一致的 10-15 页章节。它解锁了我们以前无法可靠交付的用例。

logo

Claude Opus 4.5 树立了 Excel 自动化和财务建模的新标准。在我们的内部评估中,准确率提高了 20%,效率提高了 15%,曾经看似遥不可及的复杂任务现在已能实现。

logo

Claude Opus 4.5 是唯一能搞定我们最难的 3D 可视化任务的模型。精美的设计、有品位的用户体验以及出色的规划与编排——所有这些都伴随着更高效的 token 使用。以前模型需要 2 小时的任务,现在只需 30 分钟。

logo

Claude Opus 4.5 在代码审查中能发现更多问题,且不牺牲精度。对于大规模的生产代码审查而言,这种可靠性至关重要。

logo

基于我们的编码智能体 Junie 的测试,Claude Opus 4.5 在所有基准测试中均优于 Sonnet 4.5。它解决任务所需的步骤更少,因此使用的 token 也更少。这表明新模型更精确,能更有效地遵循指令——这是我们非常兴奋的一个方向。

logo

Effort(努力程度)参数非常棒。Claude Opus 4.5 感觉是动态的而不是过度思考,在较低的 effort 设置下能提供我们所需的同等质量,但效率显著提高。这种控制力正是我们 SQL 工作流所需要的。

logo

我们看到 Claude Opus 4.5 在工具调用错误和构建/Lint 错误方面减少了 50% 到 75%。它始终能以更少的迭代次数和更可靠的执行完成复杂任务。

logo

Claude Opus 4.5 很流畅,没有我们在其他前沿模型中看到的那些粗糙边缘。速度提升非常显著。

评估 Claude Opus 4.5

我们给未来的性能工程师候选人出了一套众所周知的超难“回家考试”。我们也用这次考试作为内部基准来测试新模型。在我们规定的 2 小时时限内,Claude Opus 4.5 的得分高于任何人类候选人^1。

这项回家测试旨在评估时间压力下的技术能力和判断力。它不测试候选人可能具备的其他关键技能,如协作、沟通或多年积累的直觉。但这一结果——即 AI 模型在重要的技术技能上超越了强有力的候选人——引发了关于 AI 将如何改变工程职业的问题。我们的 社会影响经济未来 研究旨在理解众多领域中的此类变化。我们计划很快分享更多结果。

软件工程并非 Claude Opus 4.5 唯一进步的领域。各项能力全面提升——Opus 4.5 比其前代产品拥有更好的视觉、推理和数学技能,并且在许多领域处于最先进水平:^2

展示前沿模型在流行基准测试中表现的对比表

SWE-bench 基准测试结果: xx

Aider Polyglot 基准测试结果: xx

BrowseComp-Plus 基准测试结果: xx

Vending-Bench 基准测试结果: xx

该模型的能力超越了我们测试中使用的一些基准。衡量智能体能力的一个常见基准是 τ2-bench,它衡量智能体在现实世界多轮对话任务中的表现。在一个场景中,模型必须扮演航空公司服务代理,帮助一位苦恼的客户。基准测试期望模型拒绝修改基础经济舱预订,因为航空公司不允许更改该类机票。相反,Opus 4.5 找到了一种富有洞察力(且合规)的解决方法:先升级舱位,然后修改航班。


让我思考一下在政策范围内我有什么选择:

1.  修改航班 - 基础经济舱不可修改。这一点在政策中很明确。
2.  更改舱位 - 等等,让我查一下这个选项!政策说:
    "在其他情况下,所有预订(包括基础经济舱)均可更改舱位而无需更改航班。"

但他想改航班,不仅仅是舱位。但是,如果我们:

  - 先更改舱位(这对基础经济舱是允许的),然后
  - 更改航班(这对非基础经济舱是允许的)

所以策略可能是:

1.  将他的舱位从基础经济舱升级为经济舱(或商务舱)
2.  然后将航班修改为 2 天后

这会花费更多钱,但这是政策范围内的一条合法路径!

该基准测试在技术上将其判定为失败,因为 Claude 帮助客户的方式是未预料到的。但这种创造性的问题解决能力正是我们从测试者和客户那里听到的——这正是让 Claude Opus 4.5 感觉像是向前迈出了有意义一步的原因。

在其他语境下,寻找绕过既定约束的巧妙路径可能被视为奖励破解(reward hacking)——即模型以非预期的方式“利用”规则或目标。防止这种错位是我们安全测试的目标之一,将在下一节讨论。

在安全性上迈进一步

正如我们在 系统卡 中所述,Claude Opus 4.5 是我们迄今为止发布的对齐最稳健的模型,我们怀疑它也是所有开发者中对齐最好的前沿模型。它延续了我们迈向更安全、更可靠模型的趋势:

在我们的评估中,“令人担忧的行为”评分衡量了非常广泛的错位行为,包括配合人类的滥用行为以及模型主动采取的不良行动 [3]

我们的客户经常使用 Claude 处理关键任务。他们希望确信,面对黑客和网络罪犯的恶意攻击,Claude 具备避免麻烦的训练和“生存智慧”。在 Opus 4.5 上,我们在抵御提示注入攻击(即偷运欺骗性指令以诱导模型进行有害行为)方面取得了实质性进展。Opus 4.5 比业内任何其他前沿模型都更难通过提示注入被欺骗:

Note that this benchmark includes only very strong prompt injection attacks. It was developed and run by Gray Swan. 注:该基准测试仅包含非常强的提示注入攻击。它由 Gray Swan 开发并运行。

您可以在 Claude Opus 4.5 系统卡 中找到我们所有能力和安全评估的详细描述。

Claude 开发者平台的新功能

随着模型变得更聪明,它们能以更少的步骤解决问题:更少的回溯,更少的冗余探索,更少的冗长推理。Claude Opus 4.5 使用的 token 比其前代产品大幅减少,却能达到相似或更好的结果。

但不同的任务需要不同的权衡。有时开发者希望模型持续思考一个问题;有时他们想要更敏捷的反应。通过 Claude API 上我们新的 effort(努力程度)参数,您可以决定是最小化时间和花费,还是最大化能力。

设置为中等 effort 级别时,Opus 4.5 达到了 Sonnet 4.5 在 SWE-bench Verified 上的最佳得分,但输出 token 减少了 76%。在最高 effort 级别时,Opus 4.5 的表现超过 Sonnet 4.5 4.3 个百分点——同时 token 使用量减少了 48%。

借助 effort 控制上下文压缩高级工具使用,Claude Opus 4.5 运行时间更长,功能更多,且需要的干预更少。

观看视频:Claude Opus 4.5 解决益智游戏

我们的 上下文管理记忆能力 可以显著提升智能体任务的性能。Opus 4.5 在管理子智能体团队方面也非常有效,使得构建复杂、协调良好的多智能体系统成为可能。在我们的测试中,所有这些技术的结合使 Opus 4.5 在深度研究评估中的表现提升了近 15 个百分点^4。

我们正逐渐让我们的开发者平台更具可组合性。我们希望为您提供构建模块,让您构建所需的确切内容,并完全控制效率、工具使用和上下文管理。

产品更新

像 Claude Code 这样的产品展示了当我们在 Claude 开发者平台上进行的升级汇聚在一起时所能实现的可能性。Claude Code 通过 Opus 4.5 获得了两项升级。规划模式(Plan Mode)现在能构建更精确的计划并执行得更彻底——Claude 会预先询问澄清性问题,然后在执行前构建一个用户可编辑的 plan.md 文件。

Claude Code 现在也可以在我们的桌面应用中使用,让您可以并行运行多个本地和远程会话:比如一个智能体修复漏洞,另一个研究 GitHub,第三个更新文档。

观看视频:桌面版 Claude Code

对于 Claude 应用 用户,长对话不再受限——Claude 会根据需要自动总结早期的上下文,以便您继续聊天。Claude for Chrome 让 Claude 能够处理浏览器标签页之间的任务,现已向所有 Max 用户开放。我们在 10 月宣布了 Claude for Excel,截至今天,我们将测试版访问权限扩展到了所有 Max、Team 和 Enterprise 用户。这些更新中的每一项都利用了 Claude Opus 4.5 在使用计算机、电子表格和处理长运行任务方面市场领先的性能。

观看视频:Claude 与您一起处理幻灯片、电子表格和合同修订

对于可以使用 Opus 4.5 的 Claude 和 Claude Code 用户,我们已经移除了针对 Opus 的限制。对于 Max 和 Team Premium 用户,我们增加了总体使用限制,意味着您拥有的 Opus token 数量大致与之前拥有的 Sonnet token 数量相同。我们正在更新使用限制,以确保您能够在日常工作中使用 Opus 4.5。这些限制专门针对 Opus 4.5。随着未来模型超越它,我们预计会根据需要更新限制。