AI News HubLIVE
站内改写6 分で読了

補助金終了:ツールを使うエージェントの実際のコスト

GitHub Copilotが6月1日から使用量ベースの課金に移行し、エージェンティックワークフローの実際のコストが明らかになりました。この記事では、トークン消費、ツール設計の影響、プロンプト最適化と出力フォーマットの戦略を分析し、コスト管理をプラットフォームガバナンスの問題として捉えることの重要性を強調しています。

ソースO'Reilly AI & ML Radar著者: Bennie Haelen

6月1日、GitHub Copilotはすべてのプランで使用量ベースの課金を開始し、開発者から即座に大きな反響がありました。Proプランはまだ月額10ドルですが、毎月のAIクレジットプールが追加されました。クレジットは1セントで、使用するモデルと処理されるトークン(入力、出力、キャッシュされたトークンを含む)に応じて消費されます。最先端モデルを実行する大規模なエージェントセッションでは、この課金方式は定額サブスクリプションとは大きく異なる支出感をもたらします。

しかし、これはニュースであり理解する価値がありますが、重要な部分ではありません。エージェント業務の根本的なコストは6月1日に実際には変わりませんでした。トークンは常に消費され、ループは常に実行され、ツール呼び出しは常にコンテキストを拡大していました。変わったのは、メーターが可視化されたことです。定額料金で静かに補助されていたワークロードが、項目別の請求書として現れるようになりました。

トークンの行方

請求書がなぜこれほど重くなったかを理解するには、見た目は似ているが課金方法が大きく異なる2つのシナリオを比較すると役立ちます。チャット補完は単一のトランザクションに近いです。プロンプトを送信し、モデルが回答を返し、入力と出力にそれぞれほぼ1回支払います。ツールを使用するエージェントはまったく異なります。エージェントは質問に答えるというより、それに向かって作業し、ループによって作業します。タスクを推論し、ツールを呼び出し、結果を読み、再び推論し、別のツールを呼び出し、完了したと判断するまで続けます。

このループの各パスには、見逃しやすいコストがかかります。多くのエージェントハーネスでは、各ターンは累積されたコンテキストの大部分を引き継ぎます:以前のメッセージ、ツールの説明、取得されたファイル、ツールの結果。コンテキストの一部がキャッシュ、要約、または刈り込まれても、システムは次の決定のために十分な状態を保持するために計量された作業を実行しています。あなたが実際に欲しかった最終的な答えは、支払ったもののほんの一部です。ループが請求書です。

これが、エージェントコストが礼儀正しくスケールしない理由です。それはターン数に比例し、ターン数はエージェントがどれだけ発見しなければならないかに比例し、それはさらにリクエストの曖昧さと引きずっている無関係なコンテキストの量に比例します。明確でスコープの良いタスクは3ターンで完了するかもしれませんが、同じタスクをオープンエンドな質問として投げかけると15ターンもさまよう可能性があり、各ターンはそれ以前のすべてのコストを抱えています。定額料金の下ではその違いは目に見えませんでした。使用量ベースの課金では、それは小さなやり取りと高額なやり取りの違いです。

ツール設計は今やコストモデルの一部

最近、Model Context Protocolサーバーにかかる隠れた税金について書きました:肥大化したツールカタログがモデルの正しいツールへのルーティング能力を静かに低下させる方法です。冗長な説明、重複する責任、曖昧なパラメータは、モデルの仕事を難しくし、選択を悪化させます。その議論は正確性に関するものでした。課金の変更により、同じ肥大化に対して2番目の請求書が追加され、今回はドル建てです。

ツールカタログは、エージェントのループを通じて運ばれるものの一部であることがよくあります。3つの簡潔な文で説明されたツールと、3つの冗長な段落で説明されたツールはどちらも機能するかもしれませんが、後者はエージェントがロードされるたびにコンテキストウィンドウで家賃を支払います。40のツールのカタログと12ターン実行するワークフローでこれを掛け合わせると、冗長なツール設計のコストは丸め誤差ではなくなります。ツール設計はすでに正確性の規律でした。今ではコストの規律でもあります。ルーティングの精度を高める同じ監査が、請求書も引き締めます。

プロンプト規律の限界

個人ユーザーが制御できる層があり、節約が現実的で即効性があるため知っておく価値があります。最も重要な2つのパターンがあり、私は大規模な医療機関で運営するパイロットプログラムのエンジニアに両方を伝授しています。それらは魔法のトリックではありません。エージェントを不必要な発見ループに陥らせない方法です。

最初のパターンは入力に関するものです。エージェントへのプロンプトは、幅広い質問ではなく、短い要件のようにします。「データを見て、何が見つかるか教えて」のようなリクエストは、エージェントを発見モードに強制し、あなたの意図を理解するためにターンを消費し、そのターンのそれぞれが完全なコンテキストを引き継ぎます。それに対して、プロンプトが事前にプロジェクト名とテーブル名、フィルタリングする日付フィールド、希望する出力形状、除外すべきものを指定することで、具体的な内容を先送りします。より良いプロンプトは、「厳選された臨床プロジェクトとシルバーゾーンのencontersテーブルを使用して、2025年の暦年の月ごとの総encontersを表示し、admission_date_timeを包含に使用し、月ごとに1行を時系列順に返す」です。2番目のプロンプトはループを崩壊させます。エージェントは最初のターンで必要なものを得るので、あなたにインタビューするのではなく作業を行います。

実際には、違いは単なる洗練だけではありません。曖昧なバージョンはエージェントにデータモデルの発見、日付セマンティクスの推論、集約の選択、表示形式の決定を強制します。具体的なバージョンはタスクを境界のあるクエリに変えます。その違いは、正確性、レイテンシ、コストに現れます。

2番目のパターンは出力に関するもので、ほとんどの人が見落としているレバーです。中間ステップではプレーンテキストまたはMarkdownを要求し、最終的な確定成果物のためにリッチなHTMLフォーマットを保存します。フォーマットされた出力は生成にコストがかかり、要件は変化します。最初のパスで洗練されたHTMLレポートを要求し、その後フィルターを変更すると、すべてのレイアウトを再生成するために完全な出力トークン料金を支払うことになり、多くの場合は複数回です。より安価な習慣は、テキストで数字を検証し、最後にのみフォーマットすることです。

これらのパターンは機能しますが、上限もあります。両方ともコスト管理の全責任をユーザーに負わせ、すべてのユーザーがすべてのプロンプトで規律を行使する限りしか持ちこたえません。誰かが「何が見つかるか教えて」に戻った日には、節約は消え去り、チームと驚きの請求書の間に立つのは、支出超過をすでに発生した後に報告する予算上限だけです。

コストは予算の問題ではなく、ガバナンスの問題

その脆弱性が本当の教訓です。予算上限はバックストップであってコントロールではありません。暴走を止めることはできますが、なぜ超過したかを教えず、次の実行を安くすることもありません。コストを予算の問題として扱うと、常にメーターに反応することになり、アーキテクチャの問題として扱うと、節約を一度組み込み、皆の良い行動に頼る必要がなくなります。

つまり、重要なコントロールは個々のプロンプトではなく、プラットフォームに属します。プラットフォームとは、エージェント自体(開発者が日々使用するコーディングアシスタントやチャットクライアント)ではなく、モデルやその下のルーターでもありません。エージェントの上に位置するコントロールプレーン、組織がポリシー、アクセス、可観測性、そして今やコストをすべてのエージェントとモデルにわたって強制する層を意味します。ITが誰が何をしているか、どの機能をインストールできるかを可視化する管理コンソールは、その初期の狭いインスタンスです。計画を安価なモデルに送るルーターは、そこに属する一つの機能です。プラットフォームはルールが存在する場所であり、エージェントはそれらのルールの消費者であり、ルールを設定する場所ではありません。プラットフォームはタスクに応じてモデルをルーティングし、計画には安価なモデルを使用し、最先端モデルはその価格に値する作業のために予約すべきです。ループを制限し、エージェントに固定回数の反復後にチェックインを要求すべきです。ツール結果のペイロードに上限を設定し、不注意なクエリがコンテキストウィンドウに100万行をダンプできないようにすべきです。中間作業をデフォルトでプレーンテキストにし、安価なパスを最も抵抗の少ないパスにし、ユーザーが覚えておくべきものにしないべきです。

これらのコントロールのそれぞれは、ユーザーが手動で近似できるものですが、プラットフォームは単に保証できます。これはデータアクセスの文脈で何度も繰り返してきたのと同じ原則です:安全な行動はキーボードにいる人がルールを覚えていることに依存できません。プロンプトは行動を導きます。ガードレールはより安価で安全な行動をデフォルトにします。コストガバナンスは、ドル記号が付いたコントロールプレーンとしてのガードレールであり、誰がどの行を見ることができるかをすでに強制している同じ層で実施されます。

パターン、ベンダーではない

これをGitHubの話だけと読むのは間違いです。GitHubは現在の例であり、その変更は可視的で最近ですが、エージェント業務における使用量ベースの課金は多くのAIツールの方向性です。背後にある経済性は類似しています:エージェンティックワークロードは単一の回答をモデル呼び出し、ツール呼び出し、コンテキスト管理のループに変えます。ワークロードがオートコンプリートから自律性に移行すると、定額補助金は常に圧力を受けることになります。

6月1日を価格設定イベントとして扱う組織は、いくつかのプロンプトを最適化し、不平を言い、次のベンダーがメーターを変更するまで進みます。それをアーキテクチャシグナルとして扱う組織は、どのプロバイダーがどのトークンを数えているかに関係なく、コストコントロールをプラットフォームに押し込み、それらは有効です。それがより耐久性のある立場です。今月の請求書は大きくなったのではなく、正直になりました。そして正直な請求書こそ、エンジニアリングで対処できるものです。