Show HN: 繰り返しコンテキストの削除によりエージェントタスクのトークンを60%以上削減
ParcleはAIエージェント向けの共有メモリ層です。過去のコンテキストをインデックス化し、毎回同じ情報を再読み込みする無駄を省くことで、トークン消費を中央値で約30%、最大70%削減します。タスク完了時間も約2倍高速化します。
多くのAIエージェントシステムには、モデルが同じコンテキストを繰り返し読み込むという隠れたコストがあります。チケット、Slackスレッド、ドキュメント、顧客履歴、データベースノート、ランブック、ログ、過去の決定など、エージェントはタスクを開始するたびにすべてを再探索しようとし、トークンを消費します。静的プレフィックスのキャッシュ、安価なモデルへのルーティング、チーム予算の設定などの対策はありますが、根本的な行動を変えるものではありません。
私たちはParcleを構築しました。これはAIエージェント向けの共有メモリ層です。運用コンテキストを取り込み、何が起こったかをインデックス化し、エージェントが次のステップで必要な小さな関連メモリセットを取得できるようにします。これにより、毎回すべてをプロンプトに貼り付ける必要がなくなり、トークンの消費を大幅に削減します。
私たちは、Parcleのメモリ層を使用した場合と使用しない場合のトークン消費を追跡しました。その結果、最大で70%のトークン削減、タスク完了時間は約2倍速くなりました。中央値では約30%のトークン削減を達成しました。最大の削減は、データとコンテキストが多く、エージェントが複数のソースから情報を取得する必要があるワークフローで見られました。特に効果が高かったのは、サポート、運用、研究、営業、財務などのワークフローで、エージェントが同じアカウントや履歴のコンテキストを何度も再読み込みするケースです。
この問題は今重要だと考えています。PylonのAIコストに関する記事を受けて、私たちは疑問を持ちました。企業は、エージェントが同じコンテキストを探し続けることに対してどれだけコストを支払っているのか?これはメモリで解決できる隠れた税金なのではないか?Parcleはエージェントに記憶をもたらすために作られました。驚いたのは、メモリがエージェントをより便利にするだけでなく、トークン消費も削減したことです。情報を探すために使うトークンが減り、実際の生産的な作業に使える時間が増えました。
Anthropicは、エージェントはチャットの約4倍のトークンを使用すると述べていますが、私たちはこれは控えめな見積もりだと考えています。OpenAIとAnthropicはどちらもプロンプトキャッシュを提供していますが、これは再利用可能なコンテンツが安定している場合にのみ有効で、5〜15分の非アクティブでキャッシュが無効になります。また、「Lost in the Middle」やChromaの「context rot」の研究は、コンテキストが多いことが利用可能なメモリと同じではないことを示しています。コンテキストエンジニアリングの分野では、各ステップでモデルに何を見せるべきかを決定することが難しいというコンセンサスが形成されつつあります。
Parcleは、その判断を運用レベルで実現しようとする試みです。メモリをモデルの外部に置き、有用な場合のみコンテキストに選択します。本番環境で実際のエージェントを運用している方々からのフィードバックを歓迎します。トークンは実際にどこで消費されていますか?繰り返しの入力コンテキスト、ツールトレース、リトライ、出力、評価、その他?プロンプトキャッシュとモデルルーティングは十分ですか?エージェントループ内で外部メモリ層を信頼するために必要なものは何ですか?