2026-06-19站内改写3 分で読了更新: 2026-06-19

エッジAIコンパイラがGoogleやベンダーのツールチェーンを凌駕

DeepGateコンパイラv0.15.0は、量子化された.tfliteモデルを最適化された推論バイナリにコンパイルし、Arm Cortex-Mデバイス上でGoogleのTFLMと比較して最大3倍のRAM削減、2倍の推論速度向上を実現。さらに、ベンダー独自のツールチェーンをも上回る性能を示す。

ソースHacker News AI著者: webstorms

記事インテリジェンス

エンジニア上級

要点

MLPerf Tinyベンチマークで、Google TFLMと比較してRAM使用量を最大3倍削減、推論速度を最大2倍高速化。
Analog Devices、Infineon、Silicon Labs、STMなど複数ベンダーのハードウェアで優れた性能。
MAX32655ではVisual Wake WordsベンチマークがTFLMでメモリ不足となる一方、DeepGateでは正常に実行。
静的バイナリ、コンパイル時メモリ計画、カスタムアセンブリカーネルによる最適化。

重要な理由

このニュースが重要なのは、MLPerf Tinyベンチマークで、Google TFLMと比較してRAM使用量を最大3倍削減、推論速度を最大2倍高速化ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

エッジAIツールチェーンは、大規模GPU向けモデル用のコンパイラやランタイムにまだ遅れをとっています。ほとんどのマイクロコントローラ展開は、GoogleのTensorFlow Lite for Microcontrollers（TFLM）やベンダー固有の派生版に依存していますが、このアプローチではかなりの性能が未活用のままであると我々は考えています。エッジでは、効率がモデルの適合可否、リアルタイム動作、電力予算の達成を左右します。我々の目標は、CPUとAIアクセラレータ向けの最先端エッジAIコンパイラを構築することであり、最も小型のデバイスであるマイクロコントローラから始めます。

DeepGateコンパイラ（v0.15.0）をリリースします。これは量子化された.tfliteモデルを最適化された推論バイナリにコンパイルし、Arm Cortex-Mデバイス上でGoogleのTFLMと比較して最大3倍のRAM削減、最大2倍の推論速度向上を実現します。マイクロコントローラ向け機械学習のベンチマークスイートであるMLPerf Tiny評価では、Analog Devices、Infineon、Silicon Labs、STMの各シリコン上でTFLMを上回り、さらにInfineonやSilicon Labsの独自ツールチェーンをそれぞれのハードウェアで凌駕しました。一部のケースでは、当コンパイラにより、従来はメモリに収まらなかったモデルを実行可能にしました。

MLPerf Tiny v1.4ベンチマークスイート（マイクロコントローラ上の機械学習の業界標準ベンチマーク）でDeepGateコンパイラ（v0.15.0）を検証しました。4つのシリコンベンダーから4つのボードで実行し、結果をMLPerfに提出して独立したレビューを受けました。スイートには、キーワードスポッティング、ビジュアルウェイクワード、画像分類、異常検知などの代表的なエッジAIワークロードが含まれます。モデルを変更せずに、当コンパイラはGoogle TFLMと比較して最大3倍のRAM削減、最大2倍の高速推論を実現します。また、ベンダーツールチェーンも上回ります：EFR32MG24のAIアクセラレータ上でSilicon LabsのTFLM Simplicity SDKと比較して最大3倍のRAM削減と1.8倍の高速推論、PSoC 6上でInfineonのImagimobと比較して最大2倍の高速推論を達成。メモリ節約はモデルが収まるかどうかを左右します：Analog DevicesのMAX32655では、ビジュアルウェイクワードベンチマークがTFLM下でメモリ不足になりましたが、DeepGateコンパイラではコンパイルと実行に成功しました。

意味のある効率向上には複数の次元での最適化が必要であり、当コンパイラはあらゆる次元で最適化されています：ランタイムインタプリタではなく静的バイナリにコンパイル、コンパイル時にグラフ全体のメモリ割り当てを計画、Arm標準のCMSIS-NNカーネルを超えたハードウェア認識カーネル最適化（ハードウェアインザループテストでチューニングされたカスタムアセンブリルーチンを含む）を適用。

最適化ロードマップの初期段階であり、メモリ計画やカーネル最適化などの分野でまだ大きな機会が残っています。また、既存のエッジAIツールチェーンが十分に提供していないアプローチ（スパースネットワーク、低ビット量子化、Transformerモデルの効率的なアテンションメカニズムなど）へのサポートを拡大しています。さらに長期的には、DeepGateの新しいMLビルディングブロックに合わせてコンパイラを共同設計しており、高コストな行列乗算への依存を減らし、インプレース計算をより活用できるようにします——これにより、制約のあるハードウェアに根本的により適したモデルへの道を開きます。

現在、当コンパイラはArm Cortex-M CPUと選択された組み込みAIアクセラレータをターゲットとしており、積極的にサポートを拡大しています。どのターゲットが最も重要か、ぜひお聞かせください。最新情報の登録、プラットフォームアクセスのリクエスト、または次にサポートしてほしいデバイスがあればご連絡ください。