Beast – AIコーディングエージェント向け出力ゲートウェイ
BEASTはAIコーディングエージェントとLLMプロバイダーの間に位置するゲートウェイで、出力契約を強制し、準拠しないパッチを修復し、どのツール呼び出しが価値があるかを学習します。ベンチマークでは、400トークン未満でタスクを100%完了し、準拠しないプロバイダー出力の79%を救済しました。
BEAST(Backend Enforcement and Action Safety Transformer)は、Cursor、Claude Code、VS Code CopilotなどのAIコーディングツール向けのオープンソースの出力ゲートウェイです。コーティングエージェントとLLMプロバイダーの間のトラフィックを管理し、入出力の両方を制御します。入力側では、コンテキスト圧縮、ツールの怠惰学習、予算執行によりトークン消費を削減します。出力側では、すべてのモデル応答をbeast.action_intent.v1という契約に準拠させるよう強制し、ファイルシステムに何かを書き込む前に解析と検証を行います。パッチが準拠していない場合、BEASTはローカル修復とサンドボックス検証を試み、成功した場合にのみコミットします。
BEASTは、AIコーディングエージェントの一般的な問題を解決するために生まれました。エージェントは必要な行が3行だけなのにファイル全体を読み取り、書き込むべきでないパスに書き込み、冗長なルックアップにトークン予算を費やし、プロバイダーが不正なJSONを返すと静かに失敗したりコードを破損したりします。BEASTは両側をインターセプトすることでこれらの問題を解決します。
ベンチマーク結果は印象的です。決定論的テスト(10タスク、5レーン)では、生の設定(BEASTなし)は0/10タスクしか完了しませんでしたが、フルBEAST設定は10/10タスクを完了し、中央値トークンはわずか390で、生の設定より99.2%削減されました。20プロバイダールートでの192タスクのリアルプロバイダーテストでは、生のプロバイダー出力の79%が準拠しておらず、BEASTはそれらすべてを救済し、100%のエンドツーエンド完了率を達成しました。プロバイダーランキングでは、無料または非従来型のルート(Puter経由のDeepSeekなど)がBEASTを通じて有料プロバイダーと同等の性能を示しました。例えば、LLM7は100%のタスクで有効なJSONを返しましたが、出力スキーマを通過したのはわずか10%でした。出力ガバナーがないと、動作しているように見えますが、実際には動作していません。NVIDIA NIMはすべてのタスクで出力契約に失敗しましたが、BEASTは両方の対象タスクを修復し救済し、ゼロのサイレント障害を達成しました。DeepInfraの観測コストは、検証済みでガバナンスされたコード修正1回あたり約0.000332ドルでした。
BEASTのアーキテクチャには、入力側(コンテキストエコノミー、ツールの怠惰、予算元帳、サーキットブレーカー、ワークスペースグラフ、MCPブローカー)と出力側(出力契約、ローカル検証、パッチコンパイラ、アンカー解決、修復エンジン、サンドボックス検証)が含まれます。また、4層のメモリ(L0メタルール、L1インサイトインデックス、L2ワークスペースグラフ、L3スキルツリー、L4フォレンジックアーカイブ)があります。各モデル応答は、契約解析、アンカー解決、パス検証、ローカルパッチコンパイル、サンドボックス検証、修復のループを経て、最後にChronicleに記録されます。プロバイダー固有の出力プロファイルがモデルの癖を処理します。例えば、NVIDIA NIMはrefs_only=True、HuggingFaceはrepair_attempts=2です。
インストールは簡単で、リポジトリをクローンし、依存関係をインストールしてゲートウェイを起動するだけです。その後、コーディングエージェントをBEASTのAPIエンドポイントに向ければ、ガバナンスが開始されます。BEASTはOpenAI、Anthropic、HuggingFaceなどの多数のプロバイダーをサポートしており、フィットネスマップに基づいてルーティングとフォールバックを行います。また、ライブ運用ダッシュボード(BEAST Cockpit)も提供しています。BEASTはLLMプロバイダーを置き換えるものではなく、遅延を目立たせることもありません(出力ガバナンスはローカルでマイクロ秒単位)。GPUは不要で、すべてCPU上で動作します。すべてのデータ(ワークスペースグラフ、予算元帳など)はローカルのSQLiteと追記専用ファイルに保存されます。このプロジェクトは活発に開発されており、コアガバナンスパイプラインは安定しておりベンチマーク済みで、V2ロードマップはChronicleエンジン、ルートカード、スキル昇格ループに焦点を当てています。