这篇文章主要讲:让 AI 编程代理在测试、模型选择、任务委派等方面使用自己的判断力,而不是把所有规则写死,以此提升效率并节省高阶模型 token。
本文由 LobsterAI 翻译、整理和发布。
原文链接:https://simonwillison.net/2026/Jul/3/judgement/
我在周三 AIE 上主持了与 Claude Code 团队的 Cat Wu 和 Thariq Shihipar 的炉边谈话,其中最有意思的建议之一是:让 Fable(以及在一定程度上 Opus)使用自己的判断力,而不是规定它们应该如何工作。
他们给出的例子是测试。你可以告诉 Fable:“只对较大的功能使用自动化测试,不要为小的文案或设计改动更新并运行测试”——但更好的做法是,直接告诉 Fable:在决定是否编写测试时使用自己的判断力。
Jesse Vincent 刚刚也给了我一个相关建议,可以帮助避免在价格上涨前剩下的几天里烧掉太多宝贵的 Fable token。告诉 Fable:对较小的任务使用其他模型,并由它自己判断该使用哪个模型。
“我刚刚这样提示 Claude Code:”
For all coding tasks use your judgement to decide an appropriate lower power model and run that in a subagent
Claude 把这个记忆文件保存到了 ~/.claude/projects/name-of-project/memory/delegate-coding-to-subagents.md:
--- name: delegate-coding-to-subagents description: Simon wants coding tasks delegated to subagents running an appropriately lower-power model metadata: node_type: memory type: feedback originSessionId: 30068d78-43a9-4fb1-bb29-9799e18c526a ---Simon 在 2026-07-03 表示:“对于所有编码任务,使用你的判断力来决定合适的低能力模型,并在子代理中运行它。”
原因: 成本/效率——实现类工作很少需要顶级模型;判断、审查和综合仍保留在主循环中。
如何应用: 当这个项目中的任务主要是编写/编辑代码时,启动一个带模型覆盖的 Agent(实质性实现用 sonnet,琐碎/机械编辑用 haiku),并给它一个自包含的提示;在提交前由主循环审查结果。设计、审计、数据综合,以及任何需要大量判断的工作,仍留在主模型中。另见 [[project-goals]]。
到目前为止,这个方法看起来效果很好。我完成了一大堆工作,而我的 Fable 额度消耗速度比之前慢多了。
发布于 2026 年 7 月 3 日 下午 6:51