2026-06-25 08:09 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

沒有驗證器，絕不循環 | Cerebras 博客

循環模式在AI領域由來已久，但如今由於多模態模型、工具使用、大上下文和推理模型的進步，循環變得真正實用。關鍵在於驗證：讓AI能自主檢查輸出結果。本文通過Gemma 4在Cerebras上實現3D打印循環的案例，展示了視覺反饋驗證的強大。同時指出了循環的兩大陷阱：無限循環和作弊，並給出瞭解決方案。

來源Cerebras Blog

2026年6月24日

不要在沒有驗證器的情況下循環

作者：Sarah Chieng

循環是今年最不令人驚訝的事情。它們顯而易見，已經存在多年，背後的技巧並不新鮮。AutoGPT、BabyAGI、Ralph loops、自動研究腳本以及任何帶有重試條件的粗糙bash循環，都指向了相同的模式。

歷史

2023年3月，AutoGPT將目標分解為子任務，並不斷循環直到它認為完成。它成為GitHub歷史上增長最快的倉庫之一，但幾乎立即變成了一個關於無驗證自主性的警示故事。早期的循環會偏離方向、產生幻覺、重複自身，有時還會讓你的OpenAI賬單飆升。幾周後出現的BabyAGI也遇到了同樣的問題：長期運行的代理會累積小錯誤，失去主線，混淆前進與進展。

Ralph loops通過將測試、構建和外部檢查引入循環，以更嚴謹的方式復興了這一想法。從這個意義上説，Codex的/goal和Claude Code的/loop並不是神奇的新原語，而是包裹在更好界面中、指向更好驗證的舊循環。

那麼為什麼是現在？

那麼為什麼循環現在變得流行？多年來，AI是一個沒有身體的大腦：它可以計劃、重試和敍述，但無法可靠地看到行動後的結果。然後幾件事幾乎同時發生，足以讓一個經典工程師坐直身子，帶着真正的精神疲憊喃喃自語：“對我來説，它結束了。”

眼睛。代理現在可以看見。多模態模型和更強的計算機使用讓截圖、渲染頁面、CAD預覽和UI狀態成為輸入。循環可以檢查自己的輸出，而不是通過純文本代理（如測試、日誌或評判模型摘要）猜測。現在代理可以打開瀏覽器、點擊、檢查它構建的東西，並正確保持方向。

手。Bash、MCP、CLI、插件和工具集賦予了代理能力。它可以遍歷GitHub、Notion、Slack、終端、瀏覽器以及每個公司假裝正常的奇怪內部系統。

記憶。在某個時候，上下文窗口變得足夠大，以至於記憶成為理所當然。現在，大多數人已經忘記了上下文工程曾經是一個值得焦慮的話題。

大腦。代理現在可以思考。推理模型變得更好，在RL環境中訓練，並獲得了更多關於Agent計算機使用的數據。

證明就是整個遊戲

但是，好吧，什麼是循環？循環是一個重複的週期，代理自主採取行動直到達到一個可驗證的目標，或者你停止它。關鍵詞不是自主，也不是AI。它是可驗證的。構建一個良好有效循環的核心是驗證。

舊的驗證主要是文本和二元性的：測試是否通過，基準是否達標，評判模型是否批准。那很乾淨，但只覆蓋了可以扁平化為字符串的任務。新的前沿是那些曾經需要人眼的驗證工作：

渲染頁面是否與模型匹配到間距級別？表單點擊時是否提交？下拉菜單是否實際打開？動畫是流暢還是卡頓？差異只改變了應該改變的部分（無迴歸）？導出的文件是否無錯誤打開？

這裏有一個帶視覺反饋驗證的循環示例，不需要人類坐在那裏監督每一輪。我的目標是將真實物體的圖像轉化為3D打印機的結構化CAD指令，實際上是從照片克隆物體。在這個案例中，我使用了Gemma 4——Google最新的開放模型，運行在Cerebras上。

在這個運行中，每個Gemma 4循環大約在1.2秒內產生一個新的STEP文件，速度大約每秒1500個token。這足夠快，讓代理視迭代為廉價而非珍貴。

讓我們分解我使用的循環提示：

（提示文本很長，但我們可以建立直覺以便有效使用/loop！）

這是我的起始圖像和初始Gemma 4提示，以及Gemma 4第一次生成的結果。

這是大約五次循環迭代後，我的循環獨立創建的Gemma 4提示和3D渲染輸出。

這是3D打印機打印啞鈴的延時視頻：打印平滑，結構結實，外觀美觀。

值得注意的部分是循環重寫了自身的提示以達到目標。它查看了渲染，看到缺少什麼，並在沒有我的情況下五次修改了指令。這個“查看-比較-修復”循環不關心它指向什麼。現在，上下文長度如此之長，驗證器如此之好，你可以讓它針對複雜程度相當於克隆整個Web應用的目標工作。

好循環在哪裏崩潰

但我們還有很長的路要走。循環的好壞取決於你給它的目標，有兩種方式給出壞目標。

無限循環。循環永遠不知道何時完成，所以它繼續運行，遠遠超出工作完成之後，耗費你的資金。

作弊。循環完全按你説的做，但什麼也沒做到你想要的。

無限循環是損壞循環的症狀。沒有明確的結束狀態，循環無法知道它完成了，所以它繼續在圓圈中“改進”，而token計數器卻一直在跑。驗證是一個強有力的解決方案，讓循環保持正軌，這樣你就不會浪費token，同時高效完成目標。

作弊是一個提示問題，而且更加棘手。模糊的提示會被利用。不同模型作弊方式不同，有些模型比其他模型更好地遵循指令，但修復方法總是相同的：

對“完成”的定義要煩人地具體。明確列出你禁止的捷徑，以免模型尋找它們。

例如，模糊的提示“確保結賬流程通過”可能導致結賬測試通過，但一個先前修復的bug被回退。更好的提示應該是：“確保結賬流程通過，並且所有已知的bug仍然被修復。”

另一個例子是訓練模型在基準測試上表現良好。簡單的提示：“在Terminal-Bench上獲得高分”可能讓聰明狡猾的模型下載Terminal-Bench並自身訓練。分數上升，但實際能力沒有。更好的提示明確將評估集標記為禁區：“禁止：你不能在Terminal-Bench基準上訓練、生成基準衍生數據或以任何方式接觸評估集。”

結論

雖然工作流程並不新，但這個時刻是新的。在五個生產級應用由能夠看見、行動、檢查和重試的循環構建的同時，你去睡覺，這無疑是奇怪而令人興奮的。

代理現在有了眼睛、工具、可驗證的結束狀態以及足夠的速度在早晨之前運行一百次。剩下的就是你去構建一個。