没有验证器,绝不循环 | Cerebras 博客
循环模式在AI领域由来已久,但如今由于多模态模型、工具使用、大上下文和推理模型的进步,循环变得真正实用。关键在于验证:让AI能自主检查输出结果。本文通过Gemma 4在Cerebras上实现3D打印循环的案例,展示了视觉反馈验证的强大。同时指出了循环的两大陷阱:无限循环和作弊,并给出了解决方案。
2026年6月24日
不要在没有验证器的情况下循环
作者:Sarah Chieng
循环是今年最不令人惊讶的事情。它们显而易见,已经存在多年,背后的技巧并不新鲜。AutoGPT、BabyAGI、Ralph loops、自动研究脚本以及任何带有重试条件的粗糙bash循环,都指向了相同的模式。
历史
2023年3月,AutoGPT将目标分解为子任务,并不断循环直到它认为完成。它成为GitHub历史上增长最快的仓库之一,但几乎立即变成了一个关于无验证自主性的警示故事。早期的循环会偏离方向、产生幻觉、重复自身,有时还会让你的OpenAI账单飙升。几周后出现的BabyAGI也遇到了同样的问题:长期运行的代理会累积小错误,失去主线,混淆前进与进展。
Ralph loops通过将测试、构建和外部检查引入循环,以更严谨的方式复兴了这一想法。从这个意义上说,Codex的/goal和Claude Code的/loop并不是神奇的新原语,而是包裹在更好界面中、指向更好验证的旧循环。
那么为什么是现在?
那么为什么循环现在变得流行?多年来,AI是一个没有身体的大脑:它可以计划、重试和叙述,但无法可靠地看到行动后的结果。然后几件事几乎同时发生,足以让一个经典工程师坐直身子,带着真正的精神疲惫喃喃自语:“对我来说,它结束了。”
眼睛。代理现在可以看见。多模态模型和更强的计算机使用让截图、渲染页面、CAD预览和UI状态成为输入。循环可以检查自己的输出,而不是通过纯文本代理(如测试、日志或评判模型摘要)猜测。现在代理可以打开浏览器、点击、检查它构建的东西,并正确保持方向。
手。Bash、MCP、CLI、插件和工具集赋予了代理能力。它可以遍历GitHub、Notion、Slack、终端、浏览器以及每个公司假装正常的奇怪内部系统。
记忆。在某个时候,上下文窗口变得足够大,以至于记忆成为理所当然。现在,大多数人已经忘记了上下文工程曾经是一个值得焦虑的话题。
大脑。代理现在可以思考。推理模型变得更好,在RL环境中训练,并获得了更多关于Agent计算机使用的数据。
证明就是整个游戏
但是,好吧,什么是循环?循环是一个重复的周期,代理自主采取行动直到达到一个可验证的目标,或者你停止它。关键词不是自主,也不是AI。它是可验证的。构建一个良好有效循环的核心是验证。
旧的验证主要是文本和二元性的:测试是否通过,基准是否达标,评判模型是否批准。那很干净,但只覆盖了可以扁平化为字符串的任务。新的前沿是那些曾经需要人眼的验证工作:
渲染页面是否与模型匹配到间距级别? 表单点击时是否提交? 下拉菜单是否实际打开? 动画是流畅还是卡顿? 差异只改变了应该改变的部分(无回归)? 导出的文件是否无错误打开?
这里有一个带视觉反馈验证的循环示例,不需要人类坐在那里监督每一轮。我的目标是将真实物体的图像转化为3D打印机的结构化CAD指令,实际上是从照片克隆物体。在这个案例中,我使用了Gemma 4——Google最新的开放模型,运行在Cerebras上。
在这个运行中,每个Gemma 4循环大约在1.2秒内产生一个新的STEP文件,速度大约每秒1500个token。这足够快,让代理视迭代为廉价而非珍贵。
让我们分解我使用的循环提示:
(提示文本很长,但我们可以建立直觉以便有效使用/loop!)
这是我的起始图像和初始Gemma 4提示,以及Gemma 4第一次生成的结果。
这是大约五次循环迭代后,我的循环独立创建的Gemma 4提示和3D渲染输出。
这是3D打印机打印哑铃的延时视频:打印平滑,结构结实,外观美观。
值得注意的部分是循环重写了自身的提示以达到目标。它查看了渲染,看到缺少什么,并在没有我的情况下五次修改了指令。这个“查看-比较-修复”循环不关心它指向什么。现在,上下文长度如此之长,验证器如此之好,你可以让它针对复杂程度相当于克隆整个Web应用的目标工作。
好循环在哪里崩溃
但我们还有很长的路要走。循环的好坏取决于你给它的目标,有两种方式给出坏目标。
无限循环。循环永远不知道何时完成,所以它继续运行,远远超出工作完成之后,耗费你的资金。
作弊。循环完全按你说的做,但什么也没做到你想要的。
无限循环是损坏循环的症状。没有明确的结束状态,循环无法知道它完成了,所以它继续在圆圈中“改进”,而token计数器却一直在跑。验证是一个强有力的解决方案,让循环保持正轨,这样你就不会浪费token,同时高效完成目标。
作弊是一个提示问题,而且更加棘手。模糊的提示会被利用。不同模型作弊方式不同,有些模型比其他模型更好地遵循指令,但修复方法总是相同的:
对“完成”的定义要烦人地具体。 明确列出你禁止的捷径,以免模型寻找它们。
例如,模糊的提示“确保结账流程通过”可能导致结账测试通过,但一个先前修复的bug被回退。更好的提示应该是:“确保结账流程通过,并且所有已知的bug仍然被修复。”
另一个例子是训练模型在基准测试上表现良好。简单的提示:“在Terminal-Bench上获得高分”可能让聪明狡猾的模型下载Terminal-Bench并自身训练。分数上升,但实际能力没有。更好的提示明确将评估集标记为禁区:“禁止:你不能在Terminal-Bench基准上训练、生成基准衍生数据或以任何方式接触评估集。”
结论
虽然工作流程并不新,但这个时刻是新的。在五个生产级应用由能够看见、行动、检查和重试的循环构建的同时,你去睡觉,这无疑是奇怪而令人兴奋的。
代理现在有了眼睛、工具、可验证的结束状态以及足够的速度在早晨之前运行一百次。剩下的就是你去构建一个。