本文翻译自 Matt Van Horn 发布在 X 上的文章《WTF Is a Loop? Peter Steinberger vs. Boris Cherny》。本文由有道龙虾翻译、排版和发布。
本周 AI 编程领域被重复最多的一句话只有六个词,而且几乎没人能说清它到底是什么意思。
本周有一条推文让整个时间线都被它“锁喉”,于是我用 /last30days 跑了一遍大家争论的那个词。答案是真实存在的,它有五年的演化脉络,而最讽刺的是:现在真正昂贵的部分不是模型,而是循环。
让整个时间线着迷的那条推文
本周,整个 AI 编程时间线都在围着一条推文转。Peter Steinberger 在 6 月 7 日发了它,浏览量超过 220 万,回复区则变成了一场关于它到底是什么意思的混战。
“这是你每月一次的提醒:你不该再提示编码智能体了。你应该设计那些会提示你智能体的循环。”
这就是所有人都在引用的那句话。最有代表性的回复来自 Varadh Jain,他问了唯一真正重要的问题:这在实践中到底长什么样?而成为全场情绪代表的回答,则来自 Matthew Berman。
“没人知道,除了他和 Boris。”
这才是真正的故事。不是“循环就是未来”,而是一个六个词的短语拿到了 200 万浏览量,同时转发它的人却在回复区争论它到底是什么意思。
我没有翻白眼,因为我自己每晚都跑一个循环,在我睡觉时,它会给大约 30 个开源仓库打开 pull request。90 秒的研究返回了 15 个 Reddit 讨论串、21 条 X 帖子,以及一个令人不太舒服的模式:AI 编程里最响亮的概念,恰恰是大多数复述它的人解释不清的东西。
一派人在喊:提示工程已死。另一派,也就是那些手真的放在键盘上的人,则谨慎得多。
“它不是 ralph/goal 循环,那现在已经是老东西了。它大概是某种持续编排循环,用来监督其他线程/智能体。”
这条回复是所有人发出的答案里最接近正确的一条。先记住它。
循环到底是什么
Boris Cherny 在 2024 年 9 月把 Claude Code 当作副项目做了出来。现在据说,GitHub 上接近 4% 的公开提交都在它背后完成。6 月 2 日,在 WorkOS 主办的 Acquired Unplugged 活动舞台上,他给出了你能找到的最清晰的“循环”定义。
“现在它实际上又升级了,我认为进入了下一波抽象层级:我不再提示 Claude 了。我有一些正在运行的循环。是它们在提示 Claude,并弄清楚该做什么。我的工作是写循环。”
所以,用大白话说:
循环就是你写的一个小程序。它替你提示编码智能体,读取它产出的结果,判断任务是否完成;如果没完成,就再次提示它。
你不再是循环里面那个不断输入提示词的人。你变成了循环的作者。模型变成了一个子程序。
Boris 把这讲成三个阶段,把自己放在这把梯子上,是理解它最快的方式。
一年前,他还在用自动补全手写代码。
后来,他并行跑 5 到 10 个 Claude 会话,并逐个提示它们。
现在,他完全不再提示。
他写那些会提示 Claude 的循环,然后几百个智能体读取他的 GitHub、Slack 和 Twitter,并决定下一步该构建什么。
他有凭据。
“在过去 30 天里,我对 Claude Code 的 100% 贡献都是 Claude Code 写的。我合入了 259 个 PR。”
他 11 月删除了自己的 IDE,从那以后再也没打开过。
“提示工程已死”这派人跳过的微妙之处在于:他并不是说工程师过时了。仍然需要有人决定要构建什么、和客户交流、协调团队,而且他说优秀工程师比以往任何时候都更重要。
工作并没有消失。
它只是上升了一个高度:从写代码,变成写那个会写代码的东西。
光谱:从 ReAct 到编排
回复区之所以一团糟,是因为“循环”这个词至少藏着五种不同的东西。下面是这把梯子,从旧到新,这样你就不用再和别人鸡同鸭讲了。
第一阶段是学术意义上的 while 循环。2022 年的 ReAct 论文把它形式化了:模型进行推理,调用工具,读取结果,然后重复,直到完成。一个模型,一个循环,一个人在旁边看着。
第二阶段是 2023 年的 AutoGPT。它给智能体一个目标,让它自己提示自己。它也因此成名,因为它会永远空转,什么也做不出来。这次失败播下了此后多年“智能体只是玩具”的种子。
第三阶段是 Trash Panda 所说的老东西:ralph 循环。Geoffrey Huntley 在 2025 年 7 月发布了它。它简单得几乎有点冒犯:一个 bash 单行命令,把同一个提示文件一遍又一遍地管道输入给智能体。它真正的创新是纪律性:每次迭代都会把上下文重置为一组固定的锚点文件,而不是让对话越长越臃肿。Huntley 用它构建了一整门编程语言,花费约 297 美元。
第四阶段把它产品化了:2026 年春天,Codex 和 Claude Code 都发布了 /goal 命令,它会运行 ralph 循环,直到一个小型验证模型确认任务完成。
第五阶段才是 Boris 和 Steinberger 真正指的东西,而且它确实是新的,不只是换了个名字。
发生了四个变化。
循环变成了工作单元,而不是任务本身。
循环开始监督其他循环,并发运行,并按计划执行。
调度取代了人类启动,所以循环运行在基础设施时间上,而不是运行在你的注意力上。
持久性变成了显式要求,有基于 git 的状态和崩溃恢复,因为这些东西必须能熬过一次重启。
Ralph 假设你的终端一直开着。
2026 年版本假设它不会一直开着。
所以 Trash Panda 说对了两次:单智能体 ralph 循环已经是老东西了,而在其之上的多智能体编排循环,才是新层。
它不就是戴了顶帽子的 cron job 吗
整个语料里最好的怀疑论金句只有四个词,出现在某人激动地说“循环就是未来”的帖子下面。
“Cronjobs are getting funny re-branding rn.”
“cron 任务现在正在被搞笑地重新包装。”
这值得一个直接回答,而不是闪躲,因为它说对了一半。
是的,调度层就是 cron。Boris 字面意义上就是用 cron 跑他的循环。Claude Code 里的 /loop 命令底层也使用 cron。如果你对循环的全部定义就是“一个按计时器运行的东西”,那是的,我们 1975 年就发明了它,你可以回家了。
但 cron 从来没有中间那部分。
cron job 运行的是固定脚本。
循环运行的是一个模型。这个模型会查看当前状态,决定下一步做什么,执行它,检查是否成功,然后决定是否继续。
做决定的是智能体,不是你,也不是一个硬编码分支。
把这些东西堆叠起来,让一个循环分派并监督其他循环,给它们持久化共享状态,你就得到了 cron 无法表达的东西。
诚实的说法不是“循环是新的魔法”,也不是“循环只是 cron”。
诚实的说法是:循环是 cron 加上主体里的决策者,而真正有趣的工程,是你围绕那个决策者包裹的一切,用来防止它冲下悬崖。
真正构建一个循环时,它长什么样
理论说够了。入门只需要一行。Claude Code 发布了 /loop,而 Boris 自己的例子就是经典起点。粘贴它,然后替换名词。
/loop babysit all my PRs. Auto-fix build issues, and when comments come in, use a worktree agent to fix them.
译文:
/loop 照看我所有的 PR。自动修复构建问题;当评论进来时,使用一个 worktree 智能体来修复它们。
下面是他更完整的配方。几天后,Boris 发布了让 Opus 自主运行数小时甚至数天的五条建议。
五条建议,用他自己的话说:使用自动模式处理权限,这样 Claude 就不会一直请求批准;使用动态工作流,让 Claude 编排数百甚至数千个智能体来完成任务;使用 /goal 或 /loop 来推动 Claude 持续前进,直到完成;在云端使用 Claude Code,这样你可以合上笔记本;并确保 Claude 有办法端到端地自我验证它的工作。
第五条是炒作里经常跳过、而实践者最在意的一条:循环的可信度,取决于它验证自己工作的能力。
这就是整个概念的缩影。你没有写步骤。你写的是意图和停止行为,然后循环在每个 tick 上提示智能体。
在 TikTok 上,这种说法对普通受众很容易理解。
“循环模式是 AI 编程从一次性提示转向后台运行的最清晰信号之一。”
深水区则是 Steve Yegge 的 Gas Town。它在 1 月发布:20 到 30 个 Claude Code 实例,由一个 Mayor 智能体协调,还有 patrol agents 运行持续循环,状态存储在 git 中,所以工作能从崩溃中恢复。
这就是 Trash Panda 试图描述的“监督其他线程的持续编排循环”,而且它已经发布并开源。
但这项研究里最实用的教训是:一个循环有多好,取决于它有多会检查自己。增长最快的子主题不是编排,而是验证。
“你的编码智能体可以跑得很快,但坏提交也会很快复利。”
Kornas 正在发布 roborev。这个工具会在后台审查每个提交,并在上下文仍然新鲜时,把发现反馈给智能体。
一个没有反馈、只会写代码的开放循环,就是一台生产自信错误的机器。
一个会写、会运行、会读取结果、会修正的循环,才是真正有效的东西。
魔法不在循环里。
魔法在循环内部的反馈里。
反转:现在昂贵的是循环
研究从哲学问题变成财务问题,就是从这里开始的。
对整个智能体神话最犀利的祛魅,来自一位正在实际工作的工程师。
“我今年发布的每个 AI agent,本质上都是一个 for 循环、一次 LLM 调用,以及包在 JSON 解析外面的一层 try/catch。唯一 agentic 的地方,是月底的 Anthropic 账单。”
这账单不是玩笑。
本月的收据是:Uber 在四个月内烧完年度 AI 预算后,把工程师使用 Claude Code 和 Cursor 的额度限制在每人每工具每月 1500 美元。
一旦模型几乎免费地写代码,成本就转移到了运行它的循环上。
“AI 编程中最昂贵的东西不再是写代码,而是管理智能体循环。”
生产环境中所有人都害怕的失败模式,是停不下来的循环。
“没有护栏,你会得到无限循环,以及比预算高出几个数量级的账单惊喜。”
这就是为什么每一篇严肃的 2026 年循环写作,都会收敛到同样三个硬停止条件:最大迭代次数、无进展检测、token 或美元预算上限。
浪漫版本的循环是:你写好循环,一千个智能体在一夜之间建好你的公司。
生产版本的循环是:你写好循环,而你的大部分工作,是确保它们会停下来。
Gartner 把 agentic AI 放在膨胀期望的顶峰,而真正部署智能体的组织只有大约 17%。时间线和收据之间的差距,才是真实现状。
重点不是循环,而是技能
这是我自己的看法,也是我看了一周之后落脚的地方。
循环是管道。
真正的资产是它调用的技能。
Steinberger 另一个反复强调的观点,和“循环”这点配套,而且是更持久的一半:如果你做某件事超过一次,就把它变成自动化技能;如果你做了一件困难的事,事后也把它变成技能,这样下一次就是免费的。
一个内部没有可复用技能的循环,只是围绕一个陌生人写的 while true。
一个调用一组锋利、经过测试、有名字的技能库的循环,才是会复利的系统。
Reddit 上那位真正正在转变的实践者说得最好。
“Twitter 上很多人在翻白眼,但我的耳朵竖起来了。”
所以,“WTF is a loop”的答案并不是“提示工程已死”这种热梗。答案是:
停止成为循环里的那个东西。
写一次循环,给它值得调用的技能,给它反馈,让它检查自己,给它上限,让它会停止,然后让它在 cron 上运行。
与此同时,你去决定下一步要构建什么。
Steinberger 和 Boris 是从两个侧面描述同一种动物。真正知道它是什么的人,是那些已经构建过它的人。好消息是,截至本月,入门只需要一个斜杠命令。
研究中的关键模式
循环是“cron 加上主体里的决策者”:每个 tick 上选择下一步动作的是模型,而不是硬编码分支。
它的演化脉络是真实的:2022 年 ReAct,2023 年 AutoGPT,2025 年 ralph,2026 年春天 /goal,现在是编排循环。
单智能体 ralph 已经是老东西;多智能体监督才是新的层级。
循环的质量取决于反馈。持续审查和验证门,是让循环可信的关键。
昂贵资源已经从 token 转移到循环管理。限制迭代次数,检测无进展,设置美元预算。
循环内部真正可复用的单元是技能,不是提示词。调用锋利命名技能的循环会复利;每次都重新推导一遍的循环只会烧钱。
所有智能体均已回报
Reddit:17 个声音,来自 r/ClaudeAI、r/AI_Agents、r/ExperiencedDevs,47 个讨论串,3.4 万 upvotes。
X:21 个声音,包括 steipete、bcherny、runes_leo,56 条帖子,175 次转发。
YouTube:4 个声音,包括 WorkOS、Lenny’s Podcast、Y Combinator,演讲转录。
TikTok:6 个声音,包括 ai.native.founder、nikpolale,34 个短视频。
Instagram:4 个声音,包括 sequenzy_com、ai.builders,14 个 reels。
Hacker News:12 个声音,54 个故事,1000 条评论。
GitHub:6 个仓库,包括 gastownhall/gastown、NousResearch/hermes,steipete 259+ 个 PR。
顶级声音:steipete、bcherny、runes_leo、rohit_jsfreaky、MatthewBerman。
汇总自 2026-06-07 的 /last30days 运行。
切面:designing loops that prompt coding agents、ai loops、coding loops。
共同创办过一家自动驾驶烤箱公司,被 Weber 收购;也共同创办过后来成为 Lyft 的公司。现在又在构建新东西,很快会公布更多。我运行一些循环,在我睡觉时交付开源 PR;我写它们时,后台还跑着 /last30days 研究。