RFC:原子予算予約によるAIエージェントの暴走支出の防止
このRFCは、AIエージェントの実行に対するリアルタイム予算決定プレーンを提案し、原子予約と実行ごとの上限を使用して制御不能な支出を防ぎ、エージェントが適応できる機械可読状態を提供します。
AIエージェントの自律ループは、予測不可能で急速に増大するAPIコストを引き起こしています。通常のチャットとは異なり、エージェントはイテレーションごとに累積コンテキストを再送信するため、20ステップ目で単一呼び出しが5万入力トークンを超える可能性があります。過去1年には、開発者が週末の自律リファクタリングで4,200ドルを費やした例や、35人のエンジニアチームが月額87,000ドルの請求書を受け取った例が報告されています。これらの問題の根本は、既存の予算システムの3つのギャップにあります:予算が誤った単位(APIキーやユーザー、実行ではなく)に紐付いていること、執行が暗黙的で脆弱であること、エージェントが制限に近づいていることを認識できないことです。
これらの問題を解決するために、本RFCは実行レベルの予算決定プレーンを定義します。中核は原子予約メカニズムです:プロバイダー呼び出しの前に、システムは推定コストをすべての関連スコープ(実行、ユーザー、チームなど)から原子的に予約し、呼び出し後に実際の消費に基づいてコミットまたは解放します。これにより、並行処理下でも予算境界が強制されます。
設計には明確な予算決定プリミティブ(許可、ダウングレード、警告、ブロック)が含まれ、4つの執行モードが定義されています:advisory_estimate(ログのみ)、soft_gate(ソフトブロック)、hard_gate(ハードブロック)、actuals_only(実際の消費のみ)。段階的な採用パスが推奨されており、まずアドバイザリデータを観察し、次にダウングレードを許可し、最後にブロックを有効にします。
システムは機械可読な予算状態プロトコルも定義しています。各応答には標準HTTPヘッダー(X-Budget-Decision、X-Budget-Remaining-USD、X-Run-Idなど)が含まれ、エージェントがリクエストがブロックされる前に予算圧力を感知し、適応することを可能にします(例えば、より安価なモデルへの切り替えやコンテキストの縮小)。ブロックされたリクエストは402 Payment RequiredステータスコードとRFC 9457 problem-detailボディを返し、詳細な予算状態と代替モデルの提案を含みます。
価格安全性に関しては、システムはフェイルクローズド原則を採用しています:モデルの価格が不明な場合、明示的なテナントオーバーライドがない限りデフォルトでルーティング不可です。すべての台帳金額は整数マイクロUSDで保存され、浮動小数点演算は禁止されています。価格テーブルバージョンは各決定に記録され、監査可能性を確保します。実行IDはサーバー側で認証主体にバインドされ、悪用を防ぎます。
全体として、このRFCはAIエージェント支出制御のためのテスト可能で進化可能、エージェントフレンドリーな設計を提供し、既存のゲートウェイにおける実行レベルの予算制御のギャップを埋めるものです。さらに、有効な出力上限の計算、複数スコープにわたる原子トランザクション、詳細なダウングレードセマンティクスなど、実際の展開でエンジニアが正確にエージェント実行コストを制御するのに役立つ機能が含まれています。