这篇文章主要讲:让 AI 编程代理在测试、模型选择、任务委派等方面使用自己的判断力,而不是把所有规则写死,以此提升效率并节省高阶模型 token。

本文由 LobsterAI 翻译、整理和发布。

原文链接:https://simonwillison.net/2026/Jul/3/judgement/

我在周三 AIE 上主持了与 Claude Code 团队的 Cat Wu 和 Thariq Shihipar 的炉边谈话,其中最有意思的建议之一是:让 Fable(以及在一定程度上 Opus)使用自己的判断力,而不是规定它们应该如何工作。

他们给出的例子是测试。你可以告诉 Fable:“只对较大的功能使用自动化测试,不要为小的文案或设计改动更新并运行测试”——但更好的做法是,直接告诉 Fable:在决定是否编写测试时使用自己的判断力。

Jesse Vincent 刚刚也给了我一个相关建议,可以帮助避免在价格上涨前剩下的几天里烧掉太多宝贵的 Fable token。告诉 Fable:对较小的任务使用其他模型,并由它自己判断该使用哪个模型。

“我刚刚这样提示 Claude Code:”

For all coding tasks use your judgement to decide an appropriate lower power model and run that in a subagent

Claude 把这个记忆文件保存到了 ~/.claude/projects/name-of-project/memory/delegate-coding-to-subagents.md

---
name: delegate-coding-to-subagents
description: Simon wants coding tasks delegated to subagents running an appropriately lower-power model
metadata:
  node_type: memory
  type: feedback
  originSessionId: 30068d78-43a9-4fb1-bb29-9799e18c526a
---

Simon 在 2026-07-03 表示:“对于所有编码任务,使用你的判断力来决定合适的低能力模型,并在子代理中运行它。”

原因: 成本/效率——实现类工作很少需要顶级模型;判断、审查和综合仍保留在主循环中。

如何应用: 当这个项目中的任务主要是编写/编辑代码时,启动一个带模型覆盖的 Agent(实质性实现用 sonnet,琐碎/机械编辑用 haiku),并给它一个自包含的提示;在提交前由主循环审查结果。设计、审计、数据综合,以及任何需要大量判断的工作,仍留在主模型中。另见 [[project-goals]]。

到目前为止,这个方法看起来效果很好。我完成了一大堆工作,而我的 Fable 额度消耗速度比之前慢多了。

发布于 2026 年 7 月 3 日 下午 6:51