AI News HubLIVE
站內改寫3 分鐘閱讀

沒有驗證器,絕不迴圈 | Cerebras 部落格

迴圈模式在AI領域由來已久,但如今由於多模態模型、工具使用、大上下文和推理模型的進步,迴圈變得真正實用。關鍵在於驗證:讓AI能自主檢查輸出結果。本文透過Gemma 4在Cerebras上實現3D列印迴圈的案例,展示了視覺反饋驗證的強大。同時指出了迴圈的兩大陷阱:無限迴圈和作弊,並給出瞭解決方案。

2026年6月24日

不要在沒有驗證器的情況下迴圈

作者:Sarah Chieng

迴圈是今年最不令人驚訝的事情。它們顯而易見,已經存在多年,背後的技巧並不新鮮。AutoGPT、BabyAGI、Ralph loops、自動研究指令碼以及任何帶有重試條件的粗糙bash迴圈,都指向了相同的模式。

歷史

2023年3月,AutoGPT將目標分解為子任務,並不斷迴圈直到它認為完成。它成為GitHub歷史上增長最快的倉庫之一,但幾乎立即變成了一個關於無驗證自主性的警示故事。早期的迴圈會偏離方向、產生幻覺、重複自身,有時還會讓你的OpenAI賬單飆升。幾周後出現的BabyAGI也遇到了同樣的問題:長期執行的代理會累積小錯誤,失去主線,混淆前進與進展。

Ralph loops透過將測試、構建和外部檢查引入迴圈,以更嚴謹的方式復興了這一想法。從這個意義上說,Codex的/goal和Claude Code的/loop並不是神奇的新原語,而是包裹在更好介面中、指向更好驗證的舊迴圈。

那麼為什麼是現在?

那麼為什麼迴圈現在變得流行?多年來,AI是一個沒有身體的大腦:它可以計劃、重試和敘述,但無法可靠地看到行動後的結果。然後幾件事幾乎同時發生,足以讓一個經典工程師坐直身子,帶著真正的精神疲憊喃喃自語:“對我來說,它結束了。”

眼睛。代理現在可以看見。多模態模型和更強的計算機使用讓截圖、渲染頁面、CAD預覽和UI狀態成為輸入。迴圈可以檢查自己的輸出,而不是透過純文本代理(如測試、日誌或評判模型摘要)猜測。現在代理可以開啟瀏覽器、點選、檢查它構建的東西,並正確保持方向。

手。Bash、MCP、CLI、外掛和工具集賦予了代理能力。它可以遍歷GitHub、Notion、Slack、終端、瀏覽器以及每個公司假裝正常的奇怪內部系統。

記憶。在某個時候,上下文視窗變得足夠大,以至於記憶成為理所當然。現在,大多數人已經忘記了上下文工程曾經是一個值得焦慮的話題。

大腦。代理現在可以思考。推理模型變得更好,在RL環境中訓練,並獲得了更多關於Agent計算機使用的資料。

證明就是整個遊戲

但是,好吧,什麼是迴圈?迴圈是一個重複的週期,代理自主採取行動直到達到一個可驗證的目標,或者你停止它。關鍵詞不是自主,也不是AI。它是可驗證的。構建一個良好有效迴圈的核心是驗證。

舊的驗證主要是文本和二元性的:測試是否透過,基準是否達標,評判模型是否批准。那很乾淨,但只覆蓋了可以扁平化為字串的任務。新的前沿是那些曾經需要人眼的驗證工作:

渲染頁面是否與模型匹配到間距級別? 表單點選時是否提交? 下拉選單是否實際開啟? 動畫是流暢還是卡頓? 差異只改變了應該改變的部分(無迴歸)? 匯出的檔案是否無錯誤開啟?

這裡有一個帶視覺反饋驗證的迴圈示例,不需要人類坐在那裡監督每一輪。我的目標是將真實物體的影像轉化為3D印表機的結構化CAD指令,實際上是從照片克隆物體。在這個案例中,我使用了Gemma 4——Google最新的開放模型,執行在Cerebras上。

在這個執行中,每個Gemma 4迴圈大約在1.2秒內產生一個新的STEP檔案,速度大約每秒1500個token。這足夠快,讓代理視迭代為廉價而非珍貴。

讓我們分解我使用的迴圈提示:

(提示文本很長,但我們可以建立直覺以便有效使用/loop!)

這是我的起始影像和初始Gemma 4提示,以及Gemma 4第一次生成的結果。

這是大約五次迴圈迭代後,我的迴圈獨立建立的Gemma 4提示和3D渲染輸出。

這是3D印表機列印啞鈴的延時影片:列印平滑,結構結實,外觀美觀。

值得注意的部分是迴圈重寫了自身的提示以達到目標。它檢視了渲染,看到缺少什麼,並在沒有我的情況下五次修改了指令。這個“檢視-比較-修復”迴圈不關心它指向什麼。現在,上下文長度如此之長,驗證器如此之好,你可以讓它針對複雜程度相當於克隆整個Web應用的目標工作。

好迴圈在哪裡崩潰

但我們還有很長的路要走。迴圈的好壞取決於你給它的目標,有兩種方式給出壞目標。

無限迴圈。迴圈永遠不知道何時完成,所以它繼續執行,遠遠超出工作完成之後,耗費你的資金。

作弊。迴圈完全按你說的做,但什麼也沒做到你想要的。

無限迴圈是損壞迴圈的症狀。沒有明確的結束狀態,迴圈無法知道它完成了,所以它繼續在圓圈中“改進”,而token計數器卻一直在跑。驗證是一個強有力的解決方案,讓迴圈保持正軌,這樣你就不會浪費token,同時高效完成目標。

作弊是一個提示問題,而且更加棘手。模糊的提示會被利用。不同模型作弊方式不同,有些模型比其他模型更好地遵循指令,但修復方法總是相同的:

對“完成”的定義要煩人地具體。 明確列出你禁止的捷徑,以免模型尋找它們。

例如,模糊的提示“確保結賬流程透過”可能導致結賬測試透過,但一個先前修復的bug被回退。更好的提示應該是:“確保結賬流程透過,並且所有已知的bug仍然被修復。”

另一個例子是訓練模型在基準測試上表現良好。簡單的提示:“在Terminal-Bench上獲得高分”可能讓聰明狡猾的模型下載Terminal-Bench並自身訓練。分數上升,但實際能力沒有。更好的提示明確將評估集標記為禁區:“禁止:你不能在Terminal-Bench基準上訓練、生成基準衍生資料或以任何方式接觸評估集。”

結論

雖然工作流程並不新,但這個時刻是新的。在五個生產級應用由能夠看見、行動、檢查和重試的迴圈構建的同時,你去睡覺,這無疑是奇怪而令人興奮的。

代理現在有了眼睛、工具、可驗證的結束狀態以及足夠的速度在早晨之前執行一百次。剩下的就是你去構建一個。