Gemini 3.0

本文翻译自 Kilo Code 官方撰写的博客：Benchmarking Gpt 51 vs Gemini 30 vs Opus 45。其中对比了三大 AI 巨头于同月发布的最新编程模型： OpenAI 的 GPT-5.1 、 Google 的 Gemini 3.0 和 Anthropic 的 Opus 4.5 。通过三项不同的编程任务测试，结果显示 Claude Opus 4.5 是表现最全面、得分最高且速度最快的模型，适合追求一次性完成度和生产就绪代码的场景； GPT-5.1 倾向于防御性编程，注重安全性和详细文档；而 Gemini 3.0 则以最低的成本和最严格的指令遵循度著称，适合需要精确控制和极简代码的场景。模型风格差异 Claude Opus 4.5 ：代码组织严密，功能最完整，自动包含环境配置和错误处理，但成本最高。 GPT-5.1 ：风格“防御性”强，会自动添加未请求的安全检查、详细注释和类型定义，代码较为冗长。 Gemini 3.0 ：风格极简，严格按字面意思执行指令，不添加多余功能，成本最低。关键细节测试方法测评使用了 Kilo Code 平台，设计了三个涵盖不同挑战的测试：提示词遵循测试：编写具有严格规则的 Python 速率限制器。代码重构测试：修复一个充满漏洞的 TypeScript API 遗留代码。系统扩展测试：理解现有通知系统架构并添加电子邮件处理程序。具体测试表现测试 1（Python 速率限制器）： Gemini 3.0 得分最高（99/100），严格遵循了所有指令，未添加多余代码。 GPT-5.1 添加了未请求的输入验证和安全检查，虽然出于好意但违反了“严格遵循”的初衷。 Opus 4....