AI News HubLIVE
站内改写3 分で読了

AIトークンコストを顧客に転嫁するのは間違い

高額なAI利用料により企業がアクセス制限を強化する中、Axamyは無制限サブスクリプションモデルを採用し、コスト最適化を自社の課題として捉え、アーキテクチャ改善により運営コストを削減する方法を提案する。

ソースHacker News AI著者: jhonovich

ここ数ヶ月、社内AIツールやAI製品を展開してきた企業が撤退を始めています。具体的な事例が次々と明らかになっています。ある企業は年間のAIコーディング予算を4ヶ月で使い果たし、別の企業は利用制限を設定しなかったために1ヶ月で1つのAIツールに50万ドルを費やしました。個人でも1日に数千ドルのコストがかかり、チームは予算の何倍もの請求書を突き付けられています。これに対する一般的な反応は、アクセス制限、利用上限の設定、あるいは完全な停止です。

この反応は理解できます。しかし、最も一般的な解決策である従量課金による変動トークンコストの顧客転嫁は、問題を悪化させるだけです。

顧客にトークンやAPI呼び出しごとに課金する場合、コスト問題を転嫁したに過ぎず、解決していません。顧客は推論コストを管理するために契約したのではなく、仕事を完了するために契約しました。予想以上の請求が来たとき、顧客は消費したトークン数ではなく、同意した金額と実際の請求額の差を考えます。これは昔の携帯電話の超過料金と同じ構図です。顧客はサービスを普通に使っただけなのに、予想外の請求を見て怒りを感じます。その怒りはほとんどの場合、サービス提供者に向けられます。あなたはコスト管理の問題を信頼の問題に変えてしまったのです。

私たちは別の道を選びました。Axamyは固定購読料で使用上限を設けていません。トークンコストは当社の問題であり、顧客の問題ではありません。この決定は顧客体験のためでもありますが、率直に言って自己利益にもなっています。当社は多くのAIツールよりも一人あたりの価格が高く、個人向けではなくグループ向けに販売しているため、低価格の個人向け製品では難しい方法でコストを吸収できる余裕があります。

もちろん、無制限モデルがすべての企業に有効とは限りません。顧客ごとの使用量が極端に異なる場合、何らかの制限が必要なケースもあるでしょう。しかし、トークンコストをデフォルトで顧客の責任にするのは間違った出発点です。

より深い理由は、トークン請求が自社に来ることで、コスト問題を転嫁するのではなく、実際に解決する直接的な経済的インセンティブが生まれるからです。過去2週間で、当社チームはこの点で多くの改善を行いました。具体例を挙げます:

  • プロンプトキャッシュの無効化対策:回転する署名付き画像URLが毎回プロンプトキャッシュを無効にしていることを発見しました。新しいURL文字列はキャッシュミスとみなされ、全文脈の再書き込みを強制します。42回の呼び出しで370万トークンの書き込みが発生したセッションを追跡し、修正しました。
  • 動的コンテキストの再構成:動的状態をプロンプトの末尾に移動し、明示的なキャッシュブレークポイントを設定することで、ターン途中の状態変更によるキャッシュ全体の無効化を回避し、数百トークンの再読み取りで済むようにしました。
  • 遅延読み込み:アクションの説明を毎ターンデフォルトで注入するのを停止しました。その結果、未キャッシュトークンが1ターンあたり約2,000から500に減少し、75%削減されました。

これらの改善は一朝一夕にはできませんが、今後のすべてのセッションで永続的にコストを削減します。現在AIアクセスを制限している企業は間違っていませんが、制限は一時しのぎに過ぎず、転嫁は責任放棄です。本当の解決策は、アーキテクチャ的に効率的なシステムを構築することです。その作業は困難ですが、インセンティブ構造が極めて重要です。コストを転嫁せずに吸収するからこそ、システムを安価に運用し続ける直接的な経済的理由が生まれます。このように顧客と自社の利益が一致することこそ、無制限価格設定がもたらす真の価値です。