AIトレーニングと推論:その違いは?
AIトレーニングはモデルがデータから学習するプロセスであり、推論は学習済みモデルが本番環境でリクエストに応答することです。本記事では、ハードウェア、コスト、最適化における主要な違いを詳しく説明し、モデルのライフサイクル(事前学習からサービス提供まで)や推論性能を測る4つの指標についても紹介します。
AIトレーニングとは、モデルが膨大なデータから学習し、重みを調整することでコードの記述や質問応答、画像生成などのタスクを実行できるようになるプロセスです。一方、AI推論はトレーニングが完了したモデルが、まだ見たことのない新しいデータに対して出力を生成するフェーズです。
たとえば、シェイクスピアについて解説してくれる学者を雇うと想像してみてください。学者は大学で何年もかけて戯曲を読み、テーマを議論し、解釈を深めます。これがトレーニングです。学習が終われば、いつでも質問に即座に答えてくれます。これが推論です。
多くのチームはトレーニングよりも推論にはるかに多くの時間を費やします。トレーニングは限られた回数しか行われませんが、推論はモデルが使われるたびに発生するからです。本記事ではこの2つの違いを詳しく解説します。
推論が見られる場面
AI製品を使ったことがあれば、すでに推論を経験しています:
- GPT OSSが質問に答えるとき
- Cursorにコードを書かせるとき
- AIが医療会話の異常を検出するとき(例:Abridge)
- Notion AIが会議を要約したり文書を作成するとき
これらの状況では、学習済みモデルが新しい入力から出力を生成しています。その瞬間に学習は行われず、モデルの重みは固定されています。これが推論です。
トレーニングから推論へ:モデルのライフサイクル
モデルは本番環境に至るまで複数の段階を経ます:
- 事前学習:モデルが大量のデータに触れ、入力と出力のパターンや関係を学習します。順伝播で予測を生成し、損失を計算し、逆伝播で重みを更新します。これを繰り返し、言語やコードなどに関する広範な知識を獲得します。
- 後トレーニング(ファインチューニング):事前学習済みモデルを特定のタスクに特化させるため、専用データセットで重みを調整します。例えば、Basetenがカスタマーサポートボットに自社製品の用語を理解させるためにファインチューニングします。
- 最適化:量子化とコンパイルにより、モデルをターゲットハードウェアに最適化し、本番環境で高速に動作するように変換します。
- デプロイ:GPUを割り当て、APIエンドポイントを設定し、トラフィックに応じてGPUを増減するオートスケーリングを構成します。
- サービング:本番環境でリアルタイムのリクエストを処理し、速度と可用性の要件を満たします。リクエストのバッチ処理や一般的な出力のキャッシュにより、スループットを最大化し、レイテンシを最小化します。
推論の成功を測る指標
本番環境でモデルを運用する際、精度だけでは不十分です。ユーザーは応答速度を気にし、開発者はシステムの拡張性を気にします。以下の4つの指標が推論のパフォーマンスを物語ります:
- 最初のトークンまでの時間(TTFT):リクエスト送信後、ユーザーが最初の応答を見るまでの時間。TTFTが高いとアプリがフリーズしたように感じます。
- 出力トークンあたりの時間(TPOT):各トークン間の間隔で、ストリーミングの滑らかさに影響します。
- スループット:全リクエストを合わせてシステムが1秒間に生成するトークン数。システムレベルの容量指標です。
- レイテンシ:単一リクエストの応答時間全体。SLAの主要指標です。
Basetenでは、すべてのリクエストでレイテンシが記録されます。専用デプロイではTPOTとTTFTが標準で追跡され、エンドツーエンドのレイテンシ指標によりチームはモデルのパフォーマンスを正確に把握できます。
トレーニングと推論の違い
1. 計算と時間:トレーニングは数日から数週間かけて限られた回数実行され、大規模なGPUクラスタを必要とします。推論はユーザーリクエストに応じて発生し、計算需要はトラフィックに応じて変動します。推論モデルは1リクエストあたりのトークン数が多く、コストが高くなります。
2. ハードウェア:トレーニングには高い相互接続帯域幅(NVLinkやInfiniBand)と大容量メモリが必要です。推論ではハードウェアの選択肢が柔軟で、小規模な埋め込みモデルはL4で十分、低レイテンシが要求される最先端の推論モデルにはB200が必要になることもあります。
3. 最適化手法:推論には専用の最適化ツールがあります。投機的デコードはTPOTとレイテンシを改善し、連続バッチ処理はスループットを向上させ、KVキャッシュ管理はTTFTを改善します。BasetenはKVキャッシュ対応ルーティングを使用し、TTFTを約3倍削減しています。
BasetenとAI推論
Basetenは推論プラットフォームであり、企業がカスタムモデルをデプロイし、モデルAPIにアクセスし、後トレーニングを実行できます。GPUバッチ処理でハードウェア効率を最大化し、マルチクラウド管理も提供します。チームは従量課金の共有モデルAPIか、専用GPUクラスターを選択できます。
Basetenのモデルパフォーマンスチームは、カスタムカーネル、KVキャッシュ最適化、投機的デコードなどの技術を適用し、各GPUからより多くのトークンを引き出します。オープンソースモデル以外にも、カスタムLLM、リアルタイム音声AI、検索やRAGパイプライン用の高スループット埋め込み、画像・動画生成、エージェントワークフローなど、あらゆるモダリティとサイズのモデルをサポートします。
トレーニング中、Basetenは複数のチェックポイントを保存します。チェックポイントはトレーニングの途中でモデルの重みをスナップショットとして保存したもので、クラッシュ時に再開したり、異なる段階のモデル品質を比較したりするのに役立ちます。最適なチェックポイントを選択すれば、それをBasetenに本番推論APIエンドポイントとしてデプロイできます。
よくある質問
同じハードウェアをトレーニングと推論の両方に使えますか? はい。ただし、推論はより安価なハードウェアでコスト効率よく実行できることが多いです。
オンライン推論とバッチ推論の違いは? オンライン推論は低レイテンシで個々のリクエストを処理します。バッチ推論はスループットを優先し、大量の入力をまとめて処理します。結果が即時必要かどうかで選択します。
なぜ大規模になると推論がトレーニングより高コストになるのですか? トレーニングは1回限りまたは定期的なコストですが、推論はリクエストのたびにコストが蓄積されます。1日数百万リクエストを受けるモデルでは、推論の請求額はすぐにトレーニングのコストを上回ります。Basetenでは従量課金制で、前払いは不要です。