Anthropic 于 2025年 2 月 25 日发布了其最新的 AI 模型 Claude 3.7 Sonnet，并称其为目前最智能的模型，也是市场上首个混合推理模型。该模型独特之处在于它既能提供近乎即时的响应，也能进行更长时间、逐步深入的思考，并且用户可以通过 API 精细地控制模型的思考时长。

Claude 3.7 Sonnet 既是普通 LLM 又是推理模型。在标准模式下，它是 Claude 3.5 Sonnet 的升级版；在扩展思考模式下，它会在回答前进行自我反思，从而提高其在数学、物理、指令跟随、编码和许多其他任务上的性能。Claude 3.7 Sonnet 的开发理念与其他推理模型不同。 Anthropic 认为，推理能力应该是前沿模型的集成能力，而不是一个完全独立的模型，就像人类使用同一个大脑进行快速反应和深入思考一样。这种统一的方法为用户创造了更无缝的体验。

Claude 3.7 Sonnet 现已在所有 Claude 计划（包括 Free, Pro, Team 和 Enterprise 计划）以及 Anthropic API, Amazon Bedrock 和 Google Cloud 的 Vertex AI 上提供。扩展思考模式在除免费 Claude 层级外的所有平台均可用。 Claude 3.7 Sonnet 的定价与其前代产品相同，为每百万输入 tokens 3 美元，每百万输出 tokens 15 美元，其中包括思考 tokens 。

与 Claude 3.7 Sonnet 模型一同发布的还有 Claude Code ，这是一个用于 agentic coding 的命令行工具，目前以有限的研究预览版形式提供。 Claude Code 旨在让开发者能够直接从终端将大量的工程任务委托给 Claude 完成。

早期测试表明， Claude 在编码能力方面处于领先地位。

Cursor 指出， Claude 再次成为实际编码任务的最佳模型
Cognition 发现，在规划代码变更和处理全栈更新方面， Claude 远胜于其他模型
Vercel 强调了 Claude 在复杂 agent 工作流方面的卓越精度
Replit 已成功部署 Claude 从零开始构建复杂的 web 应用和仪表板
Canva 的评估显示， Claude 持续生成可用于生产的代码，且设计品味更佳，错误也大幅减少。

原文：Claude 3.7 Sonnet 和 Claude Code

今天，我们正式发布 Claude 3.7 Sonnet¹，这是 Anthropic 迄今为止最先进的大语言模型 (LLM)，也是市场上首个结合多种推理方式的模型。Claude 3.7 Sonnet 既能快速给出答案，也能进行更深入、逐步的思考，并且整个思考过程对用户可见。API 用户还可以精确控制模型进行思考的时长。

Claude 3.7 Sonnet 在代码编写和前端 Web 开发方面有了显著提升。与此同时，我们还推出了 Claude Code，这是一个用于 AI 智能体辅助编码的命令行工具。目前 Claude Code 仅提供有限的研究预览版，开发者可以直接在终端中使用它，将大量的工程任务交给 Claude 完成。

现在，所有 Claude 用户，包括 Free、Pro、Team 和 Enterprise 计划的用户，都可以通过 Anthropic API、Amazon (亚马逊公司，一家科技公司) Bedrock 以及 Google Cloud 的 Vertex AI 使用 Claude 3.7 Sonnet。深度思考模式在所有平台均可用，但免费 Claude 版本除外。

无论是在标准模式还是深度思考模式下，Claude 3.7 Sonnet 的定价都与之前的版本相同：每百万个输入 Token 3 美元，每百万个输出 Token 15 美元，包括思考过程中产生的 Token 。

Claude 3.7 Sonnet：让前沿推理技术服务于实际应用

在 Claude 3.7 Sonnet 的开发理念上，我们与其他推理模型有所不同。正如人类用同一个大脑进行快速反应和深入思考一样，我们认为推理能力应该集成到大语言模型 (LLM) 中，而不是作为完全独立的模型存在。这种统一的设计也能为用户带来更流畅的使用体验。

Claude 3.7 Sonnet 在多个方面体现了这一理念。首先，Claude 3.7 Sonnet 既是一个普通的大语言模型，又具备强大的推理能力：您可以自由选择让模型快速回答，或者在深入思考后再给出答案。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。而在深度思考模式下，它会在回答之前进行自我反思，从而在数学、物理、指令执行、代码编写以及其他许多任务中表现得更好。通常来说，在这两种模式下，使用提示词的方式是类似的。

其次，通过 API 使用 Claude 3.7 Sonnet 时，用户可以控制模型思考的预算：您可以设定 Claude 思考时最多使用的 Token 数量 N，N 的最大值为 128K Token (模型的输出限制)。这样，您就可以根据需要，在速度 (或成本) 和答案质量之间进行权衡。

第三，在开发推理模型时，我们减少了对数学和计算机科学竞赛题目的优化，而是将重点转移到更贴近实际应用的任务上，这些任务能更好地反映企业如何使用大语言模型。

早期测试表明，Claude 在代码编写能力方面处于领先地位。Cursor 指出，Claude 再次成为实际编码任务的最佳选择，并在处理复杂代码库和使用高级工具等方面有了显著改进。Cognition 发现，在规划代码变更和进行全栈更新方面，Claude 远胜于其他模型。Vercel 强调了 Claude 在复杂 AI 智能体工作流程中的出色精度。Replit 已经成功地利用 Claude 从零开始构建复杂的 Web 应用程序和仪表板，而其他模型在这方面都难以取得进展。Canva 的评估结果显示，Claude 能够持续生成可直接用于生产环境的代码，不仅设计精良，而且大大减少了错误。

图 1: Claude 3.7 Sonnet 在 SWE-bench Verified 基准测试中取得了最佳成绩。该基准用于评估 AI 模型解决实际软件问题的能力。有关更多信息，请参见附录。

图 2: Claude 3.7 Sonnet 在 TAU-bench 基准测试中取得了最佳成绩。该基准测试通过模拟用户和工具的交互，来评估 AI 智能体在复杂现实任务中的表现。有关更多信息，请参见附录。

图 3: Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和 AI 智能体辅助编码方面表现出色，并且深度思考模式显著提升了其在数学和科学方面的能力。除了传统的基准测试之外，它甚至在我们Pokémon 游戏测试中也胜过了之前的所有模型。

Claude Code

自 2024 年 6 月以来，Sonnet 就一直是全球开发者的首选模型。今天，我们还将推出 Claude Code 的早期研究版本，这是一个 AI 智能体编码工具，希望能帮助开发者们更上一层楼。

Claude Code 就像一位积极的协作者，它可以搜索和阅读代码、编辑文件、编写和运行测试、提交代码并推送到 GitHub，还能使用各种命令行工具，让您随时掌握项目的进展。

虽然 Claude Code 还是一个早期产品，但它已经成为我们团队不可或缺的工具，尤其是在测试驱动开发、调试复杂问题和大规模代码重构方面。在早期测试中，Claude Code 能够在一次运行中完成通常需要 45 分钟以上手动操作的任务，从而大大减少了开发时间和成本。

在接下来的几周里，我们将根据实际使用情况不断改进 Claude Code：提高工具调用的可靠性，增加对长时间运行命令的支持，改进应用内的渲染效果，并增强 Claude 对自身能力的理解。

我们推出 Claude Code 的目标是更好地了解开发者如何使用 Claude 进行编码，从而为未来的模型改进提供参考。通过参与此次预览体验，您将有机会使用我们用于构建和改进 Claude 的同款强大工具，您的反馈也将直接影响 Claude Code 的未来发展。

在您的代码库上使用 Claude

我们还改进了 Claude.ai 上的代码编写体验。现在，所有 Claude 计划都支持 GitHub 集成，开发者可以将自己的代码仓库直接连接到 Claude。

Claude 3.7 Sonnet 是我们迄今为止最优秀的编码模型。通过深入理解您的个人项目、工作项目和开源项目，它可以成为您更强大的助手，帮助您修复错误、开发新功能，并为最重要的 GitHub 项目编写文档。

负责任地构建

我们对 Claude 3.7 Sonnet 进行了广泛的测试和评估，并与外部专家合作，以确保它符合我们在安全性、保障性和可靠性方面的标准。与之前的版本相比，Claude 3.7 Sonnet 能够更准确地区分有害请求和无害请求，从而将不必要的拒绝减少了 45%。

关于此版本的技术报告，其中涵盖了多个类别中的最新安全结果，并详细分析了我们的“负责任扩展策略”评估结果，其他 AI 实验室和研究人员可以参考这些结果来改进他们的工作。该报告还分析了计算机使用过程中出现的新风险，特别是提示注入攻击 (Prompt Injection)。提示注入攻击是指，通过构造恶意提示词，诱导 AI 模型执行不应该执行的操作，例如泄露敏感信息、生成有害内容等。报告解释了我们如何评估这些漏洞，并训练 Claude 来抵御和缓解这些风险。此外，报告还探讨了推理模型可能带来的安全优势：理解模型如何做出决策的能力，以及模型推理是否真正值得信赖和可靠。请阅读完整的技术报告以了解更多信息。

展望未来

Claude 3.7 Sonnet 和 Claude Code 的发布，标志着我们朝着真正增强人类能力的 AI 系统迈出了重要一步。凭借其深刻的推理能力、自主工作能力和高效的协作能力，它们使我们更加接近这样一个未来：AI 将丰富和扩展人类所能取得的成就。

我们非常期待您能体验这些新功能，并创造出令人惊叹的应用。与往常一样，欢迎您提供反馈，这将帮助我们不断改进和发展我们的模型。

原文：Claude 3.7 Sonnet 和 Claude Code#