介绍一下 Claude Opus 4.5
2025 年 11 月 25 日,Anthropic 正式发布了 Claude Opus 4.5 ,这是目前在编程、智能体(Agent)协作以及计算机操作领域最先进的模型。它在处理深度研究、幻灯片制作和电子表格等日常任务上也有显著提升,代表了 AI 系统能力的又一次飞跃。 关键细节 卓越的编程与推理能力 超越人类的测试成绩:在 Anthropic 内部用于招聘的高难度工程测试中,Claude Opus 4.5 在 2 小时的时间限制内,得分超过了以往所有的人类候选人。 基准测试提升:在 Terminal Bench 测试中,该模型比 Sonnet 4.5 提升了 15% ;在 Excel 自动化任务中,准确率提升了 20% ,效率提升了 15% 。 创造性解决问题:在 $\tau$-bench 测试中(模拟航空公司客服),模型展示了极高的灵活性,通过“先升舱再改签”的合规策略解决了看似无法处理的修改航班请求,体现了深度的推理能力。 成本效益与开发工具 定价与获取:开发者现在可以通过 API 使用 claude-opus-4-5-20251101 ,定价为每百万 token $5 / $25 ,这使得 Opus 级别的能力更加普及。 效率提升:在处理长程编程任务时,该模型可节省高达 65% 的 token 用量。工具调用错误和构建错误减少了 50% 到 75% 。 新的控制参数:API 新增了 “effort parameter” (努力程度参数),允许开发者在速度/成本与极致性能之间进行权衡。在最高设定下,其表现超出 Sonnet 4.5 4....