推論がAIチップスタートアップに再び名声を得る機会を与える
AI導入が転換点に達し、焦点がトレーニングから推論に移る中、チップスタートアップは多様な推論ワークロードでNvidiaの市場シェアを奪う機会を得ている。NvidiaによるGroq買収、AWSとCerebrasの協業、IntelとSambaNovaの提携など、分解型推論がトレンドとなりつつある。Lumaiの光学推論アクセラレータやTenstorrentのRISC-Vプラットフォームも異なるアプローチを示している。
AIの導入が転換点を迎え、新モデルのトレーニングからそれらのサービス提供へと焦点が移る中、AIチップスタートアップにとっては自らの存在を示す絶好の機会となっている。トレーニングと比較して、推論ワークロードははるかに多様であり、これによりスタートアップはNvidiaが支配する市場でニッチを切り開くチャンスを得ている。大規模バッチ推論には、AIアシスタントやコードエージェントとは異なる計算、メモリ、帯域幅の組み合わせが必要であり、そのため推論はますますヘテロジニアスになっている。特定の側面はGPUや他の専用ハードウェアにより適している場合がある。
Nvidiaによる200億ドルでのGroq買収はその好例である。GroqのSRAM主体のチップアーキテクチャは、十分な数のチップがあれば、どのGPUよりも速くトークンを生成できるが、計算能力の限界と老朽化したチップ技術により効率的にスケールできなかった。Nvidiaは、計算負荷の高いプリフィル部分をGPUに移し、帯域幅に制約のあるデコード操作を新しいLPUに残すことでこの問題を回避した。
この組み合わせはNvidiaだけのものではない。GTCの翌週、AWSは独自の分解型コンピューティングプラットフォームを発表し、プリフィルにカスタムTrainiumアクセラレータ、デコードにCerebras Systemsの直径30センチのウェハースケールアクセラレータを使用した。Intelもこの動きに加わり、プリフィルにGPU、デコードにAIチップスタートアップSambaNovaの新しいRDUを使用するリファレンスデザインを発表した。
これまでのところ、AIチップスタートアップの成功のほとんどはデコード側でである。SRAMはそれほど容量は大きくないが、非常に高速である。十分な数のチップ、あるいはCerebrasのように十分に大きなチップがあれば、デコード操作の高速化に適しているが、スタートアップはこの領域に限らない。今週、Lumaiは光学推論アクセラレータの詳細を公開した。これは電子ではなく光を使用して、多くの機械学習ワークロードの核心である行列乗算演算を実行し、純粋なデジタルアーキテクチャの数分の一の消費電力で実現する。Lumaiは次世代のIris Tetraシステムが2029年までに10kWの電力予算でexaOPSのAI性能を達成すると予想している。技術的にはハイブリッド電気光学アーキテクチャだが、推論中の計算の大部分はチップの光学テンソルコアによって処理される。当初、同社はこのチップをバッチ処理などの計算負荷の高い推論ワークロード向けの独立型GPU代替品として位置づけている。長期的には、光学アクセラレータをプリフィルプロセッサとして使用することも計画している。アーキテクチャはまだ初期段階で、現在はLlama 3.1 8Bや70Bなどの数十億パラメータモデルを実行できるが、英国を拠点とするこのスタートアップは自社のチップをネオクラウドやハイパースケーラーに評価用として開放するほど成熟している。
とはいえ、すべてのAIチップスタートアップがプリフィルとデコードに異なるチップを使用することに前向きなわけではない。今週初め、TenstorrentはRISC-VベースのGalaxy Blackholeコンピューティングプラットフォームを発表し、同社CEOのJim Keller氏は分解型推論の公式に反対の意を表明した。「業界のすべての企業は、アクセラレータのアクセラレータのアクセラレータを構築するためにペアを組んでいる。CPUはコードを実行し、GPUはCPUを加速し、TPUはGPUを加速し、LPUはTPUを加速する、といった具合だ。これにより複雑なソリューションが生まれ、AIモデルや用途の変化に適応できない可能性が高い。Tenstorrentでは、より汎用的でシンプルなアプローチが機能すると考えている」と彼は声明で述べた。