2026-06-25 08:09 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

沒有驗證器，絕不迴圈 | Cerebras 部落格

迴圈模式在AI領域由來已久，但如今由於多模態模型、工具使用、大上下文和推理模型的進步，迴圈變得真正實用。關鍵在於驗證：讓AI能自主檢查輸出結果。本文透過Gemma 4在Cerebras上實現3D列印迴圈的案例，展示了視覺反饋驗證的強大。同時指出了迴圈的兩大陷阱：無限迴圈和作弊，並給出瞭解決方案。

來源Cerebras Blog

2026年6月24日

不要在沒有驗證器的情況下迴圈

作者：Sarah Chieng

迴圈是今年最不令人驚訝的事情。它們顯而易見，已經存在多年，背後的技巧並不新鮮。AutoGPT、BabyAGI、Ralph loops、自動研究指令碼以及任何帶有重試條件的粗糙bash迴圈，都指向了相同的模式。

歷史

2023年3月，AutoGPT將目標分解為子任務，並不斷迴圈直到它認為完成。它成為GitHub歷史上增長最快的倉庫之一，但幾乎立即變成了一個關於無驗證自主性的警示故事。早期的迴圈會偏離方向、產生幻覺、重複自身，有時還會讓你的OpenAI賬單飆升。幾周後出現的BabyAGI也遇到了同樣的問題：長期執行的代理會累積小錯誤，失去主線，混淆前進與進展。

Ralph loops透過將測試、構建和外部檢查引入迴圈，以更嚴謹的方式復興了這一想法。從這個意義上說，Codex的/goal和Claude Code的/loop並不是神奇的新原語，而是包裹在更好介面中、指向更好驗證的舊迴圈。

那麼為什麼是現在？

那麼為什麼迴圈現在變得流行？多年來，AI是一個沒有身體的大腦：它可以計劃、重試和敘述，但無法可靠地看到行動後的結果。然後幾件事幾乎同時發生，足以讓一個經典工程師坐直身子，帶著真正的精神疲憊喃喃自語：“對我來說，它結束了。”

眼睛。代理現在可以看見。多模態模型和更強的計算機使用讓截圖、渲染頁面、CAD預覽和UI狀態成為輸入。迴圈可以檢查自己的輸出，而不是透過純文本代理（如測試、日誌或評判模型摘要）猜測。現在代理可以開啟瀏覽器、點選、檢查它構建的東西，並正確保持方向。

手。Bash、MCP、CLI、外掛和工具集賦予了代理能力。它可以遍歷GitHub、Notion、Slack、終端、瀏覽器以及每個公司假裝正常的奇怪內部系統。

記憶。在某個時候，上下文視窗變得足夠大，以至於記憶成為理所當然。現在，大多數人已經忘記了上下文工程曾經是一個值得焦慮的話題。

大腦。代理現在可以思考。推理模型變得更好，在RL環境中訓練，並獲得了更多關於Agent計算機使用的資料。

證明就是整個遊戲

但是，好吧，什麼是迴圈？迴圈是一個重複的週期，代理自主採取行動直到達到一個可驗證的目標，或者你停止它。關鍵詞不是自主，也不是AI。它是可驗證的。構建一個良好有效迴圈的核心是驗證。

舊的驗證主要是文本和二元性的：測試是否透過，基準是否達標，評判模型是否批准。那很乾淨，但只覆蓋了可以扁平化為字串的任務。新的前沿是那些曾經需要人眼的驗證工作：

渲染頁面是否與模型匹配到間距級別？表單點選時是否提交？下拉選單是否實際開啟？動畫是流暢還是卡頓？差異只改變了應該改變的部分（無迴歸）？匯出的檔案是否無錯誤開啟？

這裡有一個帶視覺反饋驗證的迴圈示例，不需要人類坐在那裡監督每一輪。我的目標是將真實物體的影像轉化為3D印表機的結構化CAD指令，實際上是從照片克隆物體。在這個案例中，我使用了Gemma 4——Google最新的開放模型，執行在Cerebras上。

在這個執行中，每個Gemma 4迴圈大約在1.2秒內產生一個新的STEP檔案，速度大約每秒1500個token。這足夠快，讓代理視迭代為廉價而非珍貴。

讓我們分解我使用的迴圈提示：

（提示文本很長，但我們可以建立直覺以便有效使用/loop！）

這是我的起始影像和初始Gemma 4提示，以及Gemma 4第一次生成的結果。

這是大約五次迴圈迭代後，我的迴圈獨立建立的Gemma 4提示和3D渲染輸出。

這是3D印表機列印啞鈴的延時影片：列印平滑，結構結實，外觀美觀。

值得注意的部分是迴圈重寫了自身的提示以達到目標。它檢視了渲染，看到缺少什麼，並在沒有我的情況下五次修改了指令。這個“檢視-比較-修復”迴圈不關心它指向什麼。現在，上下文長度如此之長，驗證器如此之好，你可以讓它針對複雜程度相當於克隆整個Web應用的目標工作。

好迴圈在哪裡崩潰

但我們還有很長的路要走。迴圈的好壞取決於你給它的目標，有兩種方式給出壞目標。

無限迴圈。迴圈永遠不知道何時完成，所以它繼續執行，遠遠超出工作完成之後，耗費你的資金。

作弊。迴圈完全按你說的做，但什麼也沒做到你想要的。

無限迴圈是損壞迴圈的症狀。沒有明確的結束狀態，迴圈無法知道它完成了，所以它繼續在圓圈中“改進”，而token計數器卻一直在跑。驗證是一個強有力的解決方案，讓迴圈保持正軌，這樣你就不會浪費token，同時高效完成目標。

作弊是一個提示問題，而且更加棘手。模糊的提示會被利用。不同模型作弊方式不同，有些模型比其他模型更好地遵循指令，但修復方法總是相同的：

對“完成”的定義要煩人地具體。明確列出你禁止的捷徑，以免模型尋找它們。

例如，模糊的提示“確保結賬流程透過”可能導致結賬測試透過，但一個先前修復的bug被回退。更好的提示應該是：“確保結賬流程透過，並且所有已知的bug仍然被修復。”

另一個例子是訓練模型在基準測試上表現良好。簡單的提示：“在Terminal-Bench上獲得高分”可能讓聰明狡猾的模型下載Terminal-Bench並自身訓練。分數上升，但實際能力沒有。更好的提示明確將評估集標記為禁區：“禁止：你不能在Terminal-Bench基準上訓練、生成基準衍生資料或以任何方式接觸評估集。”

結論

雖然工作流程並不新，但這個時刻是新的。在五個生產級應用由能夠看見、行動、檢查和重試的迴圈構建的同時，你去睡覺，這無疑是奇怪而令人興奮的。

代理現在有了眼睛、工具、可驗證的結束狀態以及足夠的速度在早晨之前執行一百次。剩下的就是你去構建一個。