AI News HubLIVE
サイト内リライト5 分で読了

トークン毎秒を超えて:LLM推論における速度、コスト、品質のバランスを取る方法

ほとんどのチームは依然として1秒あたりのトークン数と100万トークンあたりのコストでLLMを評価していますが、これらの指標では本番環境での動作を予測できません。この記事では、速度、コスト、品質の間の真のトレードオフを明らかにし、パレートフロンティアを評価フレームワークとして紹介し、TTFTやp99レイテンシなどの重要な本番指標を強調します。

ソースBentoML Blog

ほとんどのチームは、ベンダーのランディングページで強調されている同じ2つの指標、すなわち1秒あたりのトークン数と100万トークンあたりのコストを使用してLLMを評価しています。これらの数値はシンプルで便利で比較が容易ですが、本番環境での動作を予測することはほとんどありません。厳密に管理されたベンチマークで高速に見えるモデルも、中程度の同時実行性の下で停滞する可能性があります。コスト効率が良さそうに見えるモデルも、トラフィックが増加すると2~3倍のコスト超過を引き起こす可能性があります。また、強力な合成パフォーマンスも、実際のプロンプト、実際のレイテンシ、実際のマルチステップパイプラインの下で急激に低下する可能性があります。

現在、LLMはエンタープライズグレードのAIシステムを支えています:マルチモーダルフロー、RAGパイプライン、オーケストレーションされたエージェント、マルチモデルアンサンブル、そして数千の同時ユーザーをサポートするインタラクティブなアプリケーションです。これらの環境は小さなパフォーマンスの問題を増幅し、マイナーな非効率性を顧客に見える障害や手に負えないインフラコストに変えます。

大規模に成功するために、チームはLLM推論のより深いメカニズムを理解する必要があります:精度が推論にどのように影響するか、同時実行性がレイテンシ分布をどのように形作るか、並列性がスループットをどのように変えるか、そしてスケジューリングルールがトラフィックパターンとどのように相互作用するか。このガイドは、エンタープライズチームがLLMデプロイメントにおける隠れたトレードオフを特定し、簡略化された指標ではなく実際のワークロードのレンズを通してパフォーマンスを評価する方法を示します。

従来のベンチマークがチームを誤解させる理由(そしてベンダーがどのようにそれらを操作するか)

ベンチマークの結果は、しばしば決定的に見えます:単一のスループット数値、100万トークンあたりのコスト見積もり、またはあるモデルが別のモデルより優れていることを示すグラフ。しかし、それらの数値の背後にある現実は、LLMが本番環境でどのように動作するかをほとんど表していません。ベンダーは通常、エンタープライズレベルのワークロードに存在する変動性、予測不可能性、多次元的なトレードオフではなく、理想的な条件下での強みを強調するようにベンチマークを設計します。

表面下では、これはパフォーマンスの幻想を生み出し、インフラ計画、製品決定、コスト予測を大きく歪める可能性があります。

トークンスループットと単位コストの限界:トークンスループットはバッチ最適化されており、大規模で均質なバッチ、一貫したシーケンス長、ウォームGPUでパフォーマンスを測定します。これらの条件下では、控えめなハードウェアでも印象的な数値を示すことができます。しかし、エンタープライズトラフィックは均質ではありません。ユーザーは可変長プロンプトを送信し、リクエストは予測不可能な間隔で到着し、アプリケーションはインタラクティブワークロードとバッチワークロードを混在させることがよくあります。トークン/秒は以下を捕捉できません:インタラクティブな動作(チャットボット、コパイロット、エージェントではスループットではなくTTFTが知覚速度を左右する)、スケジューリング制約(同時実行性がトークンの生成方法とキューイング方法を決定する)、混合長の非効率性(長いプロンプトはバッチ停滞を引き起こし、短いプロンプトはGPUを完全に活用しない)、コールドスタートペナルティ(新しいセッション、コンテナスピンアップ、キャッシュミスがウォームキャッシュベンチマークと比較してパフォーマンスを歪める)。

100万トークンあたりのコストも同様に不完全です。これには、レイテンシオーバーヘッド、量子化による品質低下、実際のトラフィック下でSLAを維持するために必要な追加GPU時間など、実際にインフラ支出を促進する要因が含まれていません。チームは、ベンダーの指標が同時実行性、テールレイテンシ、品質への影響を考慮していなかったため、予測よりも2~3倍多く支払うことになることがよくあります。

LLMデプロイメントにおける真のトレードオフを理解する(そしてパレートフロンティアが重要な理由)

LLMのパフォーマンスを評価する際、目標は最速または最も安価な単一のモデルを見つけることではありません。それは、どのトレードオフがワークロードにとって重要かを理解し、それらの特定の制約に対して速度、コスト、品質のバランスを取る構成を選択することです。LLM推論は多目的最適化問題であり、ある軸での改善は他の軸に影響を与えます。

速度、コスト、品質は独立して最適化できません:各推論構成は、3つの対立する力によって形成されます。速度はバッチ戦略、スケジューリングの積極性、精度レベル、並列性の選択によって影響を受けます。より高い速度を追求すると、多くの場合、不規則またはバーストトラフィックの下でp99レイテンシの増加や出力品質の低下などのトレードオフが生じます。コストはモデルサイズ、精度、同時実行制限によって駆動されます。コスト削減は通常、これらの次元の1つ以上を制約することを伴い、需要の急増時に推論の深さ、正確性、応答性を低下させる可能性があります。品質は、より高い精度、より大きなコンテキストウィンドウ、より保守的なスケジューリング、およびバッチ削減によって向上しますが、これらの選択は計算負荷を増やし、推論を遅くし、GPU支出を増加させます。

これらの力は互いに引き合います。主にコストに調整された構成は、しばしばTTFTや推論品質を犠牲にします。速度に調整された構成は、高い同時実行性の下で苦戦する可能性があります。品質に調整された構成は、大幅に多くの計算を必要とする可能性があります。普遍的な最適構成は存在せず、特定のワークロードに対する適切なバランスのみが存在します。

これが、1秒あたりのトークン数や単一の指標に依存することが必然的に誤った決定につながる理由です。パレートフロンティアフレームワークは、1つの指標を改善するために別の指標を犠牲にする必要があるすべての構成を明らかにします。これは、盲目的に最適化するのではなく、トレードオフを理解するための構造化された方法を提供します。実際には、パレート最適構成は、チームがどのようにバランスを取らなければならないかを明らかにします:より低いTTFF対より低いスループット、より良い品質対より高いコスト、より高い同時実行性対より多くのメモリ使用、より厳しいp99レイテンシ対バッチ効率の低下。このアプローチは、評価を実際のビジネスニーズに合わせ、チームが最も印象的なベンチマーク数値を持つものではなく、制約に対して可能な限り最良の構成を選択できるようにします。

標準ベンチマークに欠けている本番環境で重要な指標

ほとんどの公開ベンチマークはスループットに焦点を当てていますが、スループットだけではLLMが実際のワークロードの下でどのように動作するかを予測できません。エンタープライズトラフィックは、単純なベンチマーク数値が隠すパフォーマンスの次元を露呈します:応答性、同時実行制限、スケジューリング動作、メモリパターン。これらの指標は、ユーザーエクスペリエンス、SLAの安定性、インフラコストに直接影響を与えます。

TTFT(最初のトークンまでの時間)は、チャット、エージェント、コパイロットのユーザーエクスペリエンスを支配します。インタラクティブなアプリケーションは、TTFTとp99レイテンシに生死を左右されます。なぜなら、ユーザーはあらゆるミリ秒を知覚するからです。TTFTはバッチの蓄積、キャッシュミス、スケジューリングの選択に敏感であり、インターフェースの応答性を形作ります。高いTTFTはアシスタントが応答前にためらい、信頼とエンゲージメントを低下させます。トークン間レイテンシ(ITL)はストリーミングの滑らかさとSLAの安定性を決定します。変動性はデコードフェーズのメモリプレッシャーとスケジューリングオーバーヘッドから生じます。ITLが一貫しないと、会話エージェントはぎくしゃくしたり「どもったり」し、ユーザー離脱を増加させます。p99レイテンシは、実際の同時実行性の下での真のパフォーマンスを明らかにします。平均レイテンシはテール動作を隠します。p99は、同時実行性が急増したり入力長が変化したりしたときにシステムがどのように反応するかを示します。高いp99値はSLAを破り、タイムアウトを引き起こし、予測不可能なエッジケースを補償するためにチームにGPUの過剰プロビジョニングを強制します。

これらの指標は、LLM推論パフォーマンスを評価するためのより完全な全体像を提供します。チームはベンチマーク指標を超えて、特定のワークロードを考慮した評価フレームワークを構築すべきです。