2026-06-16站内改写5 分で読了更新: 2026-06-16

Tensordyne、対数演算を採用したAIプロセッサ「Napier」を発表

Tensordyneは、独自の対数数学を活用した3nm AIプロセッサおよびラックスケール推論プラットフォーム「Napier」を発表した。乗算を加算に変換することで乗算器面積を削減し、オンチップSRAMを増加させ、ラックレベルの推論経済性を向上させると主張する。Napierチップは1380億トランジスタ、2.1 petaflopsの演算能力、256MBのSRAM、144GBのHBM3Eを搭載。完全なTDN72ラックシステムは72ノード、68 petaflops、42TBのHBMを備え、最大10〜20兆パラメータのモデルをサポート。Tensordyneは、2兆パラメータのGPT MoEモデル推論において、単一の120kW TDN72ラックで1ユーザーあたり毎秒1300トークンを達成し、競合が複数ラックとより多くの電力を必要とするのに対抗するとしている。Napierは空冷方式を採用し、2027年第1四半期にベータプログラム、第2四半期末にシステム出荷を予定。

ソースHacker News AI著者: lumpa

記事インテリジェンス

エンジニア上級

要点

独自の対数数学により乗算を加算に変換し、乗算器面積を削減、より多くのオンチップSRAMを実現。
Napierチップは3nm、1380億トランジスタ、2.1 petaflops、256MB SRAM、144GB HBM3E。
TDN72ラックは72ノード、68 petaflops、42TB HBMを搭載し、最大20兆パラメータモデルに対応。
NVIDIA Blackwell比5倍のSRAM、空冷設計、サブマイクロ秒インターコネクトを主張。ソフトウェアエコシステムはHugging Face、PyTorch/Triton、カスタムDSLを含む。

重要な理由

このニュースが重要なのは、独自の対数数学により乗算を加算に変換し、乗算器面積を削減、より多くのオンチップSRAMを実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Tensordyneは、独自の対数数学を中核とする3nm AIプロセッサ「Napier」およびラックスケール推論プラットフォームを発表した。他のAIチップスタートアップが混雑市場に参入する中、Tensordyneの注目点は、アクセラレータ内の計算方法を変えることで乗算器面積を削減し、オンチップSRAMを増やし、ラックレベルの推論経済性を改善できるという主張にある。現時点でNapierはテープアウト済みのチップであり、2027年のシステムロードマップが示されている。そのため、性能とソフトウェアの主張が実際の展開で通用するかどうかが大きな課題となる。

TensordyneはNapierをAI推論の速度とコストの両方に挑む手段として位置付けている。同社によれば、対数数学アプローチは乗算を加算に変換する。加算器は乗算器より小型で低消費電力であるため、より多くのシリコン領域をメモリに割り当て、システムバランスを改善できるという。

このアプローチは、単なるチップ提供ではなくクラスターアーキテクチャ全体のエコシステム発表という形をとっている。今日のAIインフラ議論では、ピーク時のTOPSやFLOPSだけでなく、ロングコンテキスト推論、エージェンティックワークフロー、混合専門家モデルなどがメモリ、インターコネクト、デコードスループット、ラック電力、冷却によって制約される点が重要視されている。Tensordyneは、よりバランスの取れたチップとラック設計により、現在のハイエンド代替品よりもラックあたりのトークン数とメガワットあたりのトークン数を向上できると主張する。

比較として、TensordyneはTDN72ラックを2兆パラメータのGPT MoEモデル向けの大規模マルチラック構成と比較。同社によれば、単一の120kW TDN72ラックでユーザーあたり毎秒1300トークンを達成できる一方、NVIDIAとGroqは9ラック・1.5MW、AWSとCerebrasは14ラック・800kWを必要とするという。これらの比較は注目に値するが、Napierは現時点では製品発表段階にある。

完全なTDN72システムは72ノード、68 petaflopsの総演算能力、42TBのHBMで構成される。Tensordyneは、その能力を最大10兆から20兆パラメータのモデル向けに設計しており、メモリフットプリントとエキスパートルーティングが主要なシステムレベルの課題となる領域を標的としている。ここでラックスケール設計が重要となるのは、単にアクセラレータを追加しても、インターコネクト、メモリ、電力、冷却インフラがボトルネックになる場合には効果がないからである。

Napier自体はTSMCの3nmプロセスで製造され、1380億トランジスタを搭載。ダイあたり2.1 petaflopsの演算能力、1.33GHzのアクセラレータコア、1.5GHzのCPU、256MBのSRAM、144GBのHBM3Eを備える。特に重要な主張の一つは、NapierがNVIDIA Blackwellの5倍のSRAMを持つという点である。これが実用的なワークロードで実証されれば、追加のSRAMによりより多くのデータを計算ファブリックの近くに保持し、システム内のデータ移動のペナルティを低減できる。

対数数学の概念はアーキテクチャ上のフックとなっている。Tensordyneは、乗算器フットプリントを削減することでSRAMの余地を増やし、一方でシストリックアレイとベクトルプロセッサがスループットを処理すると説明する。これは、単に高密度の行列演算ユニットを数えるのとは異なるAIアクセラレータ問題へのアプローチである。同時に、この部分こそが第三者によるワークロードテストを最も必要とする点であり、数値アプローチの変更は精度、ソフトウェア、モデル移行に影響を与える可能性がある。

トレイレベルでは、Tensordyneは9つのNapierチップを1RUのAIコンピュートトレイにパッケージ化し、1.3TBのHBM3E、8TBのストレージ、Intel XeonホストCPU、デュアル200GbEを搭載。4つのトレイでTDN72ポッドを構成し、4つのポッドが標準の52RUラックに収まる。実用的なポイントとして、Tensordyneは空冷システムを目標としている。大規模AIでは液冷が使用されるが、Tensordyneは空冷を採用する点も興味深い。また、フロントエンドが2x 200GbEであることから、Intel XeonホストCPUはPCIe Gen6（x16リンクあたり800Gbps）に対応していない可能性がある。

スケールアップ接続も設計の主要部分である。Tensordyneは独自のインターコネクト「TDN Link」と呼び、72チップシステム全体でサブマイクロ秒のチップ間レイテンシと1TB/sの帯域幅を提供するとしている。混合専門家モデルやエージェンティックAIワークロードでは、エキスパートルーティング、活性化の移動、多数のユーザーへの対応によりレイテンシと帯域幅の制限が露呈するため、インターコネクトはアクセラレータと同様に重要である。NVL72のスパインとは異なり、これは従来のシャーシスイッチネットワーキングソリューションに近い。

トポロジーの柔軟性もインターコネクトの一部である。Tensordyneは、任意のチップをワークロード用にグループ化でき、ソフトウェアスタックがそれを透過的に処理できれば、フェイルオーバーとモデル配置に役立つとしている。これは大規模展開では有用な主張だが、運用の詳細が重要となる。クラスタスケジューラ、モデルサービングレイヤ、障害処理、可観測性が適切に機能して初めて、顧客はその利点を実感できる。

ソフトウェアは発表の中で最も難しい部分となる可能性がある。Tensordyneは、Hugging FaceでホストされるモデルハブにSDKを提供し、PyTorchおよびTritonで定義されたモデルの直接コンパイル、およびカスタムPython eDSL「tensordyne.nn」を計画している。NVIDIAのCUDAエコシステムは、フレームワーク、カーネル、プロファイリングツール、デプロイパターン、開発者の習慣の巨大な基盤である。新しいAIアクセラレータが成功するには、ソフトウェアの導入が容易で、顧客が試してみたくなるようにしなければならない。

パートナーシップも重要である。Tensordyneは、シャーシおよびインフラコンポーネントについてHPEおよびJuniperと協業していると発表しており、これにより同社は単なるチップ開発企業ではなくシステムベンダーとしての信頼性を高めることができる。Broadcom経由でのTSMC 3nmテープアウトは重要なマイルストーンだが、ラックスケールAIシステムにはサプライチェーン、プラットフォーム検証、フィールドサポート、新しいアーキテクチャにワークロードを委ねる顧客が必要である。

タイミングも課題である。Tensordyneは、ベータプログラムを2027年第1四半期、システム出荷を2027年第2四半期末と予定している。その頃には、NVIDIA、AMD、ハイパースケーラーの内部シリコン、Cerebras、GroqなどのAIインフラオプションもさらに進化しているだろう。Napierは、実際のモデルサービング、実際のソフトウェアスタック、実際の顧客運用において、主張する効率性が実証される必要がある。

まとめると、Tensordyne Napierは最も興味深いAIアクセラレータ発表の一つであり、NVIDIAと単に規模で差別化するのではなく、計算方法そのものを変えようとしている。NVIDIAと同様のフォームファクタでより安価だと主張しても成功した例は少ないため、数学の変更は興味深い。3nmテープアウト、1380億トランジスタ、大容量SRAMの主張、42TB HBMラック構成、空冷TDN72システムは、注目に値する。

しかし、魅力的な発表と成功するAIプラットフォームの間には大きな隔たりがある。ラックあたりの性能とメガワットあたりの性能は、まさに正しい指標である。Tensordyneの技術が機能し、2027年に提供できれば、Napierは推論インフラの注目すべき代替案となり得る。おそらく数十億ドル規模の取引も始まるかもしれない。それまでは、これは野心的なアーキテクチャであり、証明すべきことが多く残っている。今後の展開に注目したい。