针对 3 项编程任务评测 GPT-5.1 vs Gemini 3.0 vs Claude Opus 4.5 • Kilo Code
本文翻译自 Kilo Code 官方撰写的博客:Benchmarking Gpt 51 vs Gemini 30 vs Opus 45。其中对比了三大 AI 巨头于同月发布的最新编程模型: OpenAI 的 GPT-5.1 、 Google 的 Gemini 3.0 和 Anthropic 的 Opus 4.5 。通过三项不同的编程任务测试,结果显示 Claude Opus 4.5 是表现最全面、得分最高且速度最快的模型,适合追求一次性完成度和生产就绪代码的场景; GPT-5.1 倾向于防御性编程,注重安全性和详细文档;而 Gemini 3.0 则以最低的成本和最严格的指令遵循度著称,适合需要精确控制和极简代码的场景。 模型风格差异 Claude Opus 4.5 :代码组织严密,功能最完整,自动包含环境配置和错误处理,但成本最高。 GPT-5.1 :风格“防御性”强,会自动添加未请求的安全检查、详细注释和类型定义,代码较为冗长。 Gemini 3.0 :风格极简,严格按字面意思执行指令,不添加多余功能,成本最低。 关键细节 测试方法 测评使用了 Kilo Code 平台,设计了三个涵盖不同挑战的测试: 提示词遵循测试:编写具有严格规则的 Python 速率限制器。 代码重构测试:修复一个充满漏洞的 TypeScript API 遗留代码。 系统扩展测试:理解现有通知系统架构并添加电子邮件处理程序。 具体测试表现 测试 1(Python 速率限制器): Gemini 3.0 得分最高(99/100),严格遵循了所有指令,未添加多余代码。 GPT-5.1 添加了未请求的输入验证和安全检查,虽然出于好意但违反了“严格遵循”的初衷。 Opus 4....