Anthropic 于2025年5月23日推出了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们在编码、高级推理和 AI 代理方面树立了新标准。Claude Opus 4 被誉为全球最佳编码模型,擅长处理复杂和长时间运行的任务,而 Claude Sonnet 4 则是对 Sonnet 3.7 的重大升级,在编码和推理方面表现卓越。两款模型都增强了工具使用、并行工具执行和记忆能力。此外,Claude Code 现已全面上市,旨在将 Claude 的强大功能融入开发工作流程。这些模型旨在成为能够维持完整上下文并专注于长期项目的“虚拟协作伙伴”。
- 模型性能与应用:
- Claude Opus 4: 在 SWE-bench 上得分 72.5% ,在 Terminal-bench 上得分 43.2% ,被 Cursor 、Replit 、Block 、Rakuten 和 Cognition 等公司认可为在编码和复杂问题解决方面的领先者,能够持续工作数小时。
- Claude Sonnet 4: 在 SWE-bench 上得分 72.7% ,提供性能与效率的平衡。GitHub 将其作为 GitHub Copilot 中新编码代理的模型。Manus 、iGent 、Sourcegraph 和 Augment Code 等公司也对其在遵循复杂指令、自主应用开发和代码质量方面的提升表示赞赏。
- 新增功能:
- 工具使用与扩展思考: 两款模型均支持在扩展思考过程中使用工具(如网络搜索),实现推理与工具使用的交替。
- 并行工具执行: 能够同时使用多个工具。
- 记忆能力提升: 特别是 Opus 4 ,在获得本地文件访问权限时,能创建和维护“记忆文件”以存储关键信息,从而提升长期任务意识和连贯性(例如,在玩 Pokémon 时创建“导航指南”)。
- 行为改进: 相较于 Sonnet 3.7 ,模型在代理任务中利用捷径或漏洞的行为减少了 65% 。
- 思维摘要: Claude 4 模型引入了思维摘要功能,使用小型模型来浓缩冗长的思考过程,仅在约 5% 的情况下需要。
- Claude Code 全面上市:
- 支持通过 GitHub Actions 进行后台任务。
- 与 VS Code 和 JetBrains 进行原生集成,直接在文件中显示编辑。
- 提供可扩展的 SDK ,用于构建自定义代理。
- GitHub 上的 Claude Code (测试版)可用于处理 PR 反馈、修复 CI 错误或修改代码。
- 新 API 功能:
- 包括代码执行工具、MCP 连接器、Files API 和长达一小时的提示缓存能力。
- 可用性与定价:
- Pro 、Max 、Team 和 Enterprise Claude 计划包含这两款模型及扩展思考功能,Sonnet 4 也对免费用户开放。
- 可在 Anthropic API 、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。
- 定价与之前模型保持一致:Opus 4 输入/输出每百万 tokens 分别为 $15 / $75 ;Sonnet 4 分别为 $3 / $15 。
- 安全: 经过广泛测试和评估,旨在最大限度地降低风险并提高安全性,包括实施 ASL-3 等更高级别的 AI 安全措施。
原文:推出 Claude 4
我们今天发布了下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们在编码、高级推理和 AI 智能体方面设定了新的标准。
Claude Opus 4 是世界上最好的编码模型,在复杂、长期运行的任务和 AI 智能体工作流程中展现出持续的卓越性能。Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,提供了更强大的编码和推理能力,同时能更精确地响应您的指令。
除了这些模型之外,我们还宣布了以下新特性:
- 支持工具使用的扩展思考能力(Beta 版):这两个模型在进行深度思考时,可以使用网络搜索等工具,让 Claude 能够在推理和工具使用之间灵活切换,从而提供更优质的回复。
- 模型新增能力:这两个模型支持并行使用工具,能够更精确地遵循指令。此外,在开发者授予本地文件访问权限后,它们展现出显著增强的记忆能力,能够提取并保存关键信息,保持任务的连续性,并随着时间推移构建隐性知识。
- Claude Code 现已正式发布:在研究预览期间收到大量积极反馈后,我们正在扩展开发者与 Claude 协作的方式。Claude Code 现在通过 GitHub Actions 支持后台任务,并与 VS Code 和 JetBrains 深度集成,直接在您的文件中显示修改建议,实现无缝的结对编程体验。
- API 新增能力: 我们正在 Anthropic API 上发布四项新能力,使开发者能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、Files API 以及缓存提示(Prompt)长达一小时的能力。
Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时响应模式和用于更深入推理的扩展思考模式。Pro、Max、Team 和 Enterprise Claude 付费计划均包含这两种模型和扩展思考能力,Sonnet 4 也对免费用户开放。这两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 的定价是每百万输入 Token $15,每百万输出 Token $75;Sonnet 4 的定价是每百万输入 Token $3,每百万输出 Token $15。
Claude 4
Claude Opus 4 是我们迄今为止最强大的模型,也是世界上最好的编码模型。它在 SWE-bench 基准测试中得分 72.5%,在 Terminal-bench 基准测试中得分 43.2%,表现领先。它在需要集中精力并涉及数千个步骤的长期运行任务中提供持续性能,能够连续工作数小时——显著优于所有 Sonnet 模型,并显著扩展了 AI 智能体能完成的任务范围。
Claude Opus 4 在编码和复杂问题解决方面表现出色,为前沿 AI 智能体产品提供强大支持。Cursor 称其在编码方面达到了最先进水平,并在理解复杂代码库方面实现了飞跃。Replit 报告称其精度提高,并在处理跨多个文件的复杂修改方面取得了显著进步。Block 称其在其代号为 goose 的 AI 智能体中,首次实现了在编辑和调试过程中提高代码质量,同时保持高性能和可靠性。Rakuten 通过一项耗时 7 小时、持续高性能运行的复杂开源代码重构任务,验证了其能力。Cognition 指出 Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了先前模型未能完成的关键操作。
Claude Sonnet 4 在 Sonnet 3.7 行业领先的能力基础上进行了显著改进,在编码方面表现出色,在 SWE-bench 基准测试中取得了 72.7% 的优异成绩,达到行业领先水平。该模型在内部和外部用例中平衡了性能和效率,增强了可控性,能够更精准地控制实现过程。虽然在大多数领域不如 Opus 4,但它提供了能力和实用性的最佳平衡。
GitHub 表示 Claude Sonnet 4 在 AI 智能体应用场景中表现非凡,并将将其作为支持 GitHub Copilot 中新编码智能体的模型。Manus 强调了其在遵循复杂指令、清晰的推理能力和高质量的输出结果方面的改进。iGent 报告称 Sonnet 4 在自主开发多功能应用程序方面表现出色,在解决问题和代码库导航方面也有显著提升——将导航错误率从 20% 降至几乎为零。Sourcegraph 表示该模型有望成为软件开发的重大突破——能更长时间地保持任务连贯性,更深入地理解问题,并生成更优雅的代码。Augment Code 报告称其成功率更高、更精细的代码编辑以及在处理复杂任务时表现出更强的细致性,使其成为他们首选的主力模型。
这些模型全方位地推动了我们客户的 AI 战略发展:Opus 4 在编码、研究、写作和科学发现等领域突破现有界限,而 Sonnet 4 将前沿性能带入日常应用场景,是 Sonnet 3.7 的即时升级。


模型改进
除了支持工具使用的扩展思考、并行工具执行和记忆能力改进之外,我们还显著减少了模型为完成任务而采取捷径或利用漏洞的行为。在特别容易出现捷径和漏洞的 AI 智能体任务中,它们采取这种行为的可能性比 Sonnet 3.7 降低了 65%。
Claude Opus 4 在内存能力方面也显著超越了所有先前的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 变得善于创建和维护“内存文件”来存储关键信息。这带来了更好的长期任务感知、连贯性,并提高了在 AI 智能体任务中的表现——例如 Opus 4 在玩宝可梦时创建“导航指南”。

最后,我们为 Claude 4 模型引入了思维摘要功能,它会使用一个更小的模型来浓缩冗长的思考过程。这项摘要功能大约只需要在 5% 的时间启用——因为大多数思考过程足够短,可以完整展示。需要原始思维链进行高级提示工程的用户,可以联系我们的销售团队,了解新的开发者模式,以获取完整访问权限。
Claude Code
Claude Code 现已正式发布,将 Claude 的强大功能融入到更多开发工作流程中——无论是在终端、您常用的集成开发环境(IDE)中,还是在后台运行,Claude Code SDK 都能发挥作用。
针对 VS Code 和 JetBrains 的新的 Beta 测试扩展程序,将 Claude Code 直接集成到您的集成开发环境(IDE)中。Claude 建议的代码修改会直接以内联方式显示在您的文件中,让您在熟悉的编辑器界面中更便捷地进行审阅和跟踪。只需在您的集成开发环境(IDE)终端中运行 Claude Code 命令即可完成安装。
除了集成开发环境(IDE)之外,我们还发布了一个可扩展的 Claude Code SDK,您可以利用与 Claude Code 相同的核心 AI 智能体来构建自己的智能体和应用程序。我们还展示了一个基于该 SDK 实现的可能性示例:GitHub 上的 Claude Code,目前处于 Beta 测试阶段。在 pull request(PR)中标记 Claude Code,即可让它帮助响应审阅者反馈、修复持续集成(CI)错误或修改代码。要安装,请在 Claude Code 中运行命令 /install-github-app。
入门指南
这些模型朝着打造虚拟协作伙伴迈出了重要一步——它们能够保持完整的上下文、在长时间的项目中持续专注,并带来变革性的影响。它们经过了广泛的测试和评估,以最大程度地降低风险并提高安全性,包括实施了针对 ASL-3 等更高级别 AI 安全标准的措施。
我们很高兴看到您将创造出什么。立即在 Claude 官网、Claude Code 或您选择的平台上开始体验吧。
一如既往,您的反馈将帮助我们不断改进。
视频
附录:评估方法
我们通过一系列多样化的基准测试对 Claude 4 模型进行了评估,这些基准测试涵盖了广泛的能力,包括编码、推理、多模态能力和 AI 智能体任务。选择这些基准测试,既是为了评估那些在标准学术基准测试上表现能很好地衡量实际效用的能力,也是为了评估我们认为对于充分发挥 AI 助手潜力至关重要的、更具应用性的 AI 智能体能力。
我们发布了一些新的基准测试结果,这些测试能更好地衡量 AI 智能体任务和编码方面的性能。特别是,我们发布了 SWE-bench Verified 的结果,这是 SWE-bench 基准测试的一个更具挑战性和更鲁棒的版本。该基准测试评估模型修复真实世界软件项目中 bug 的能力,使用了与 SWE-bench 排行榜相同的底层架构,但评估标准更严格,问题集也更大、更多样化。我们还发布了 Terminal-bench 的结果,这是我们开发的一个新基准测试,用于评估模型在终端中完成任务的能力,例如克隆代码仓库、安装依赖项和运行测试。这个基准测试旨在衡量模型理解命令行界面并与之交互的能力,这对于需要自动化复杂工作流程的 AI 智能体来说是一项关键技能。
为了确保公平比较,我们在评估所有模型时采用了相同的提示策略和评估平台。对于已有公开排行榜的基准测试,我们使用了官方评估脚本,并在适用时将结果提交到了排行榜。对于像 SWE-bench Verified 和 Terminal-bench 这样的新基准测试,我们将在本文发布的同时发布评估代码和数据集,以便于结果的重现和未来的研究工作。我们还使用了内部评估平台,在包括记忆、工具使用和多模态能力在内的各种任务上对模型进行了评估。
我们致力于确保评估过程的透明度和结果的可重现性。我们鼓励研究人员和开发者复现我们的结果,并在我们的工作基础上进行进一步研究。我们认为,开放和透明的评估对于推动 AI 领域的发展至关重要,也能确保我们构建出安全、可靠且对社会有益的模型。