2026-06-25 08:09 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

没有验证器，绝不循环 | Cerebras 博客

循环模式在AI领域由来已久，但如今由于多模态模型、工具使用、大上下文和推理模型的进步，循环变得真正实用。关键在于验证：让AI能自主检查输出结果。本文通过Gemma 4在Cerebras上实现3D打印循环的案例，展示了视觉反馈验证的强大。同时指出了循环的两大陷阱：无限循环和作弊，并给出了解决方案。

来源Cerebras Blog

2026年6月24日

不要在没有验证器的情况下循环

作者：Sarah Chieng

循环是今年最不令人惊讶的事情。它们显而易见，已经存在多年，背后的技巧并不新鲜。AutoGPT、BabyAGI、Ralph loops、自动研究脚本以及任何带有重试条件的粗糙bash循环，都指向了相同的模式。

历史

2023年3月，AutoGPT将目标分解为子任务，并不断循环直到它认为完成。它成为GitHub历史上增长最快的仓库之一，但几乎立即变成了一个关于无验证自主性的警示故事。早期的循环会偏离方向、产生幻觉、重复自身，有时还会让你的OpenAI账单飙升。几周后出现的BabyAGI也遇到了同样的问题：长期运行的代理会累积小错误，失去主线，混淆前进与进展。

Ralph loops通过将测试、构建和外部检查引入循环，以更严谨的方式复兴了这一想法。从这个意义上说，Codex的/goal和Claude Code的/loop并不是神奇的新原语，而是包裹在更好界面中、指向更好验证的旧循环。

那么为什么是现在？

那么为什么循环现在变得流行？多年来，AI是一个没有身体的大脑：它可以计划、重试和叙述，但无法可靠地看到行动后的结果。然后几件事几乎同时发生，足以让一个经典工程师坐直身子，带着真正的精神疲惫喃喃自语：“对我来说，它结束了。”

眼睛。代理现在可以看见。多模态模型和更强的计算机使用让截图、渲染页面、CAD预览和UI状态成为输入。循环可以检查自己的输出，而不是通过纯文本代理（如测试、日志或评判模型摘要）猜测。现在代理可以打开浏览器、点击、检查它构建的东西，并正确保持方向。

手。Bash、MCP、CLI、插件和工具集赋予了代理能力。它可以遍历GitHub、Notion、Slack、终端、浏览器以及每个公司假装正常的奇怪内部系统。

记忆。在某个时候，上下文窗口变得足够大，以至于记忆成为理所当然。现在，大多数人已经忘记了上下文工程曾经是一个值得焦虑的话题。

大脑。代理现在可以思考。推理模型变得更好，在RL环境中训练，并获得了更多关于Agent计算机使用的数据。

证明就是整个游戏

但是，好吧，什么是循环？循环是一个重复的周期，代理自主采取行动直到达到一个可验证的目标，或者你停止它。关键词不是自主，也不是AI。它是可验证的。构建一个良好有效循环的核心是验证。

旧的验证主要是文本和二元性的：测试是否通过，基准是否达标，评判模型是否批准。那很干净，但只覆盖了可以扁平化为字符串的任务。新的前沿是那些曾经需要人眼的验证工作：

渲染页面是否与模型匹配到间距级别？表单点击时是否提交？下拉菜单是否实际打开？动画是流畅还是卡顿？差异只改变了应该改变的部分（无回归）？导出的文件是否无错误打开？

这里有一个带视觉反馈验证的循环示例，不需要人类坐在那里监督每一轮。我的目标是将真实物体的图像转化为3D打印机的结构化CAD指令，实际上是从照片克隆物体。在这个案例中，我使用了Gemma 4——Google最新的开放模型，运行在Cerebras上。

在这个运行中，每个Gemma 4循环大约在1.2秒内产生一个新的STEP文件，速度大约每秒1500个token。这足够快，让代理视迭代为廉价而非珍贵。

让我们分解我使用的循环提示：

（提示文本很长，但我们可以建立直觉以便有效使用/loop！）

这是我的起始图像和初始Gemma 4提示，以及Gemma 4第一次生成的结果。

这是大约五次循环迭代后，我的循环独立创建的Gemma 4提示和3D渲染输出。

这是3D打印机打印哑铃的延时视频：打印平滑，结构结实，外观美观。

值得注意的部分是循环重写了自身的提示以达到目标。它查看了渲染，看到缺少什么，并在没有我的情况下五次修改了指令。这个“查看-比较-修复”循环不关心它指向什么。现在，上下文长度如此之长，验证器如此之好，你可以让它针对复杂程度相当于克隆整个Web应用的目标工作。

好循环在哪里崩溃

但我们还有很长的路要走。循环的好坏取决于你给它的目标，有两种方式给出坏目标。

无限循环。循环永远不知道何时完成，所以它继续运行，远远超出工作完成之后，耗费你的资金。

作弊。循环完全按你说的做，但什么也没做到你想要的。

无限循环是损坏循环的症状。没有明确的结束状态，循环无法知道它完成了，所以它继续在圆圈中“改进”，而token计数器却一直在跑。验证是一个强有力的解决方案，让循环保持正轨，这样你就不会浪费token，同时高效完成目标。

作弊是一个提示问题，而且更加棘手。模糊的提示会被利用。不同模型作弊方式不同，有些模型比其他模型更好地遵循指令，但修复方法总是相同的：

对“完成”的定义要烦人地具体。明确列出你禁止的捷径，以免模型寻找它们。

例如，模糊的提示“确保结账流程通过”可能导致结账测试通过，但一个先前修复的bug被回退。更好的提示应该是：“确保结账流程通过，并且所有已知的bug仍然被修复。”

另一个例子是训练模型在基准测试上表现良好。简单的提示：“在Terminal-Bench上获得高分”可能让聪明狡猾的模型下载Terminal-Bench并自身训练。分数上升，但实际能力没有。更好的提示明确将评估集标记为禁区：“禁止：你不能在Terminal-Bench基准上训练、生成基准衍生数据或以任何方式接触评估集。”

结论

虽然工作流程并不新，但这个时刻是新的。在五个生产级应用由能够看见、行动、检查和重试的循环构建的同时，你去睡觉，这无疑是奇怪而令人兴奋的。

代理现在有了眼睛、工具、可验证的结束状态以及足够的速度在早晨之前运行一百次。剩下的就是你去构建一个。