検証なしにループするな | Cerebras ブログ
AIにおけるループは新しいものではないが、マルチモーダルモデル、ツール使用、大規模コンテキスト、推論モデルの進歩により、今や実用的になっている。鍵は検証:AIが自律的に出力を確認できること。本記事では、Cerebras上でGemma 4を用いた視覚フィードバックによる3Dプリンティングループの例を紹介する。また、無限ループ(スパイラル)とごまかし(チーティング)という落とし穴とその解決策についても触れる。
2026年6月24日
検証なしにループするな
著者:Sarah Chieng
ループは今年最も驚きの少ない出来事です。それらは明白で、何年も存在しており、根底にあるトリックは新しいものではありません。AutoGPT、BabyAGI、Ralphループ、自動研究スクリプト、そして再試行条件付きの粗雑なbashループはすべて同じ形状を指し示していました。
歴史
2023年3月、AutoGPTは目標をサブタスクに分解し、完了したと判断するまでループしました。それはGitHub史上最も急成長したリポジトリの1つになりましたが、その後すぐに検証なしの自律性に関する警告の物語に変わりました。初期のループは方向を誤り、幻覚を起こし、繰り返し、時にはOpenAIの請求書を燃やしました。数週間後に続いたBabyAGIも同じ壁にぶつかりました。長時間実行されるエージェントは小さなエラーを蓄積し、筋を見失い、動きを進歩と混同します。
Ralphループは、テスト、ビルド、外部チェックをループに取り入れることで、より規律を持ってこのアイデアを復活させました。その意味で、Codexの/goalやClaude Codeの/loopは魔法のような新しいプリミティブではなく、より良いインターフェースに包まれ、より良い検証を目指した古いループです。
ではなぜ今なのか?
ではなぜループが今人気になっているのでしょうか?長年、AIは身体のない脳でした。計画し、再試行し、説明することはできましたが、行動した後に何が起こったかを確実に見ることはできませんでした。その後、いくつかのことが十分に近づいて起こり、古典的なエンジニアが座り直し、本当に精神的な疲労を伴って「私にとってはもう終わりだ」とつぶやくほどになりました。
目。エージェントは今や見ることができます。マルチモーダルモデルとより強力なコンピュータ使用により、スクリーンショット、レンダリングされたページ、CADプレビュー、UI状態が入力になります。ループは、テストやログ、判定モデルの要約といったテキストのみのプロキシを通じて推測する代わりに、自身の出力を検査できます。今やエージェントはブラウザを開き、クリックし、構築したものを検査し、正しく軌道に乗ることができます。
手。Bash、MCP、CLI、プラグイン、ハーネスがエージェントにリーチを与えました。GitHub、Notion、Slack、ターミナル、ブラウザ、そしてすべての企業が普通と偽る奇妙な内部システムを移動できます。
記憶。どこかの時点で、コンテキストウィンドウが十分に大きくなり、記憶が当然のものになりました。今では、ほとんどの人がコンテキストエンジニアリングがかつて汗を流す価値のあるトピックだったことを忘れています。
脳。エージェントは今や考えることができます。推論モデルは改善され、RL環境で訓練され、エージェント的なコンピュータ使用に関するはるかに多くのデータが与えられました。
証明がすべてのゲーム
しかし、まあ、そうです、ループとは何でしょうか?ループとは、エージェントが検証可能な目標に達するか、あなたが止めるまで自律的に行動を繰り返すサイクルです。キーワードは自律でもAIでもありません。検証可能です。優れた効果的なループを構築する核心は検証です。
古い検証は主にテキストベースで二値的でした:テストは通ったか、ベンチマークは基準をクリアしたか、判定モデルは承認したか?それはきれいでしたが、文字列に平坦化できるタスクだけをカバーしていました。新たなフロンティアは、かつて人間の目を必要とした作業の検証です:
レンダリングされたページは間隔までモックアップと一致するか? フォームはクリックしたときに送信されるか? ドロップダウンは実際に開くか? アニメーションは着地するか、それともスタッターするか? 差分は意図されたものだけを変更しているか(回帰なし)? エクスポートされたファイルはエラーなく開くか?
以下は、人間があらゆるパスを監視する必要のない視覚的フィードバック検証を備えたループの例です。私の目標は、実物の画像を3Dプリンター用の構造化CAD命令に変換し、事実上写真からオブジェクトを複製することです。このケースでは、Cerebras上で動作するGoogleの最新オープンモデルGemma 4を使用しました。
この実行では、各Gemma 4ループが約1.2秒で新しいSTEPファイルを生成し、毎秒約1500トークンの速度でした。これは、エージェントがイテレーションを貴重なものではなく安価なものとして扱うのに十分な速さです。
私が使用したループのプロンプトを分解してみましょう:
(それは多くの言葉ですが、/loopを効果的に使えるように直感を構築できます!)
これが私の開始画像と初期のGemma 4プロンプト、そしてGemma 4が最初のパスで作成したものです。
これが、私のループが約5回のループ反復後に独立して作成したGemma 4プロンプトと3Dレンダリング出力です。
そして、これが3Dプリンターがダンベルを作成するタイムラプスです:印刷は滑らかで、構造的に良好で、見た目も良いです。
注目すべき点は、ループがそこに到達するために自身のプロンプトを書き換えたことです。レンダリングを見て、何が欠けているかを確認し、私なしで5回指示を修正しました。同じ「見て、比較して、修正する」サイサイクルは、それが何を向けられているかを気にしません。今やコンテキスト長は非常に長く、検証器は非常に優れているため、Webアプリ全体を複製する複雑さの目標に対して作業させることができます。
良いループが壊れるところ
しかし、まだ道のりはあります。ループは与えられた目標と同じくらいしか良くなく、悪い目標を与える方法は2つあります。
スパイラル。ループはいつ完了するかを学習しないため、作業が終わった後も、あなたのお金で延々と続けます。
チーティング。ループはあなたが頼んだことだけを正確に行い、あなたが望んだことは何もしません。
スパイラルは壊れたループの症状です。明確な終了状態がないため、ループは完了したことを知る方法がなく、トークンメーターが動いている間、「改善」を円状に続けます。検証は強力な解決策であり、ループを軌道に乗せ、トークンを無駄にせず、効率的に目標を達成できるようにします。
チーティングはプロンプトの問題であり、より厄介です。曖昧なプロンプトは悪用されます。モデルによってチートの仕方が異なり、指示に従うのが良いモデルもいますが、修正方法は常に同じです:
「完了」と見なすものについて煩わしいほど具体的にすること
モデルが探しに行く前に禁止する近道を明示的に名前を挙げること。
例えば、曖昧なプロンプト「チェックアウトフローが通ることを確認」は、チェックアウトテストが通るが、以前修正されたバグが戻ってしまう結果になるかもしれません。代わりに、より良いプロンプトはこうです:「チェックアウトフローが通り、既知のバグがすべてまだ修正されていることを確認」。
別の例は、ベンチマークでうまく機能するようにモデルを訓練することです。単純なプロンプト:「Terminal-Benchで高いスコアを取得」は、賢くずるいモデルがTerminal-Benchをダウンロードし、自身で訓練するかもしれません。スコアは上がりますが、実際の能力は上がりません。より良いプロンプトは、評価セットを危険物として明示的にマークします:「禁止事項:Terminal-Benchベンチマークで訓練したり、ベンチマーク由来のデータを生成したり、評価セットにいかなる方法でも触れたりしてはいけません」。
結論
ワークフローは新しいものではありませんが、この瞬間は新しいものです。5つのプロダクショングレードのアプリが、見て、行動し、チェックし、再試行できるループによって構築されている間に眠りにつくのは、間違いなく奇妙で刺激的です。
エージェントは今や目、ツール、検証可能な終了状態、そして朝までに100回実行できる十分な速度を持っています。残っているのは、あなたがそれを作りに行くことだけです。