AI News HubLIVE
站内改写

TTFTを低減するCPUMaxxingトークン化

CrusoeとNVIDIA Dynamoは、HuggingFace比平均9.1倍の高速化を実現し、長コンテキストワークロードでTTFTを最大40%削減するオープンソースのRust BPEトークナイザーfastokensを開発しました。

記事インテリジェンス

エンジニア上級

要点

  • fastokensは平均9.1倍、長いプロンプトでは最大31倍の高速化を達成。
  • 並列プリトークン化、2レベルキャッシュ、動的メモリ管理などの最適化を実装。
  • オープンソースで、NVIDIA DynamoやSGLangと統合し、多くの人気モデルをサポート。
  • GB200 NVL72では、100Kトークンのレイテンシが149-165msから6-13msに低下し、92%以上の削減。

重要な理由

このニュースが重要なのは、fastokensは平均9.1倍、長いプロンプトでは最大31倍の高速化を達成ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

エージェントベースのLLM推論において、トークナイゼーションは見落とされがちなボトルネックです。ツールコール、検索コードやファイル、実行結果、会話履歴、中間推論からのコンテキストが蓄積されるにつれてプロンプトは巨大化し、トークナイゼーションは最初のトークン生成時間(TTFT)のかなりの部分を占めるようになります。CrusoeとNVIDIA Dynamoチームは、この問題に対処するため、高性能Rustエンジンで実装されたドロップインBPEトークナイザーfastokensを開発しました。

fastokensは複数のレベルでの最適化により大幅な高速化を実現しています。核となる最適化にはCPUMaxxingが含まれます:プリトークン化フェーズを並列権限ゾーンに分割し、各スレッドが重複する境界を独立して処理することで、逐次スキャンを回避します。BPEエンコードフェーズでは、専用のスレッドプールを使用して並列処理し、スレッドローカルL1キャッシュとグローバルL2キャッシュの2レベルキャッシュを採用して同期オーバーヘッドを削減します。2つ目の最適化は動的メモリ管理:事前割り当てバッファと範囲参照を使用して多数のアロケーションを単一メモリブロックに置き換え、バイトからUnicodeへのマッピングテーブルを事前計算して実行時の変換を回避します。3つ目の最適化は正規表現:可能な場合はPCRE2のJITコンパイルパスを優先し、各スレッドが独立したプリコンパイル済み正規表現のコピーを持ち、ロック競合を排除します。

ベンチマークでは、fastokensは4つのモデル(DeepSeek-V3.2、MiniMax-M2.1、Mistral-Nemo、GPT-OSS-120B)、2つのデータセット(LongBenchとShareGPT)、3つのCPUアーキテクチャ、512から100Kトークンの入力長において、HuggingFaceトークナイザーに対して平均9.1倍の高速化を達成しました。50Kトークンを超えるプロンプト(エージェントワークロードの典型)では、純粋なトークナイゼーション速度が平均17.4倍、ピーク31倍に向上し、実際の推論ワークロードで最大40%のエンドツーエンドTTFT改善につながりました。

GB200 NVL72システム(NVIDIA Grace CPU)では、100KトークンのレイテンシがHuggingFaceベースラインの149-165msからfastokensの6-13msに低下し、92%以上の削減を達成しました。16Kトークンでも、レイテンシは25-27msから2-3msに低下しています。CPUアーキテクチャによって高速化の程度は異なり、Grace CPUで平均9.3-12.6倍、Xeon 8568Yで6.8-10.0倍、Xeon 8468Vで6.6-9.3倍でした。

fastokensはオープンソースであり、NVIDIA DynamoおよびSGLangと統合され、NVIDIA Nemotron、DeepSeek、Qwen、GLM、MiniMax、Mistralなどの多くの人気モデルをサポートしています。この研究は、CPUに特化した深い最適化によってLLM推論におけるトークナイゼーションのボトルネックを大幅に軽減し、ユーザー体験を向上できることを示しています。