GroqCloud、GPT‑OSSモデルにプロンプトキャッシングと値下げを導入
Groqは、GPT-OSSモデルに対する2つの重要なアップデート、価格引き下げとプロンプトキャッシング機能の提供を発表しました。これらはAI推論のコスト効率と速度を向上させることを目的としています。新価格は即時発効し、2025年10月の未払い請求書にも遡及適用されます。プロンプトキャッシングにより、キャッシュされたトークンが最大50%割引、レイテンシが低減、レート制限が緩和され、設定は不要です。
Groqは本日、GPT-OSSモデルシリーズに対する2つの主要な改善、価格引き下げとプロンプトキャッシング機能の導入を発表しました。これらのアップデートは、開発者により効率的で経済的なAI推論体験を提供することを目的としています。
まず、GroqCloud上のGPT-OSSモデルの価格が全面的に引き下げられました。新価格は即日発効し、2025年10月の未払い請求書にも遡及適用されます。これにより、開発者は即座に低コストを享受でき、過去の未払い請求も自動的に調整されます。
次に、今回のアップデートのハイライトとして、プロンプトキャッシング機能が導入されました。この機能はGPT-OSS-20Bモデルで既に静かに展開されており、今後数週間でGPT-OSS-120Bモデルにも拡大されます。プロンプトキャッシングは、最近のリクエストから同一のトークンプレフィックスを識別して再利用する仕組みです。キャッシュヒットが発生すると、開発者は以下のメリットを得られます。
- キャッシュされたトークンが50%割引:同一プレフィックス内の入力トークンは半額となり、最初の差分以降のトークンは定額で課金されます。
- レイテンシの大幅な低減:同一のトークンプレフィックスを共有するリクエストの応答速度が大幅に向上します。
- レート制限の緩和:キャッシュされたトークンはGroqCloudのレート制限にカウントされません。
- 設定不要:すべてのAPIリクエストで自動的に有効になり、コードの変更は不要です。
具体的な価格例として、GPT-OSS-120Bモデルのキャッシュされていないトークンの入力価格は100万トークンあたり0.15ドルですが、キャッシュ後は0.075ドルになります。GPT-OSS-20Bモデルは0.075ドルから0.0375ドルに下がります。
Cluelyの創業者エンジニアであるGuilherme Garibaldi氏は次のように述べています。「私たちはリアルタイムAIに特化しており、レイテンシが重要です。すでにGroqを最も時間に敏感な生成タスクに利用していますが、プロンプトキャッシングは製品を加速するだけでなく、まったく新しいユースケースを可能にします。私たちの生成では平均92%のプロンプトが再利用されており、プロンプトキャッシングは速度と品質の両方でゲームチェンジャーとなるでしょう。」
プロンプトキャッシングは、安定した再利用可能なプロンプトコンポーネントを持つワークフローに特に適しています。例えば、RAGプラットフォームやデータアプリケーションでの長いシステムプロンプトと検索テンプレートのキャッシュと再利用、エージェントアプリケーションでの繰り返しのツール呼び出しやサンプル例の再利用、評価パイプラインでの大規模データセットに対する同一プロンプトのキャッシュ、チャットボットでのブランドスタイルやポリシーの前置きのキャッシュと再利用などが挙げられます。
キャッシュメカニズムはプレフィックスマッチングに基づいており、システムは最近のリクエストから一致するプレフィックスを特定します。一致するプレフィックスが見つかると、キャッシュされた計算が再利用され、レイテンシが大幅に削減され、キャッシュ部分のトークンコストが50%削減されます。一致しない場合は通常通り処理されますが、プレフィックスは将来の一致に備えて一時的にキャッシュされます。すべてのキャッシュデータは数時間以内に自動的に期限切れとなります。
Groqはまた、ビルトインツール、レスポンスAPI、および4つのグローバルリージョンでのインスタントクラウド利用可能性を提供し、GPT-OSSモデルに対して最も堅牢な機能サポートを実現しています。開発者は今すぐGroqCloudでGPT-OSSモデルを試用し、プロンプトキャッシングの詳細とベストプラクティスについての開発者ドキュメントを参照できます。