AI News HubLIVE
站内改写3 分で読了

エッジAI向けモデル設計の自動化

ニューラルアーキテクチャサーチ、DeepGateコンパイラ、開発プラットフォームによる実ハードウェア測定を組み合わせた自動モデル設計システムを構築しました。MLPerf Tinyベンチマークにおいて、生成されたモデルは最大45倍高速で、RAM使用量を最大11分の1に削減しつつ高精度を維持します。

ソースHacker News AI著者: webstorms

マイクロコントローラ向けのモデル構築は、依然として手作業が中心です。チームはゼロからモデルを設計するか、既存のアーキテクチャを適応させ、ターゲットハードウェアに合わせて反復的に修正しています。リソース制約のあるデバイスでは、大きすぎたり遅すぎて動作しないモデルと、デバイスに収まるがエラーが多すぎるモデルとのトレードオフに直面することがよくあります。

私たちは、自動モデル設計システムの基盤を構築しました。ニューラルアーキテクチャサーチ、DeepGateコンパイラ、そして開発プラットフォームを通じて得られる実ハードウェア測定値を組み合わせることで、ターゲットのマイクロコントローラに特化したモデルを自動的に探索できます。MLPerf Tinyの4つの標準ベンチマークタスク(音声からの単語検出、画像中の人物識別など)において、生成されたモデルは参照モデルと比較して最大45倍高速で、RAM使用量を最大11分の1に削減しました。例えば、Analog Devices MAX32655上で動作するMLPerf Tinyキーワードスポッティングベンチマークでは、推論レイテンシが104.3ミリ秒から2.3ミリ秒に、RAM使用量が23.7 KBから2.1 KBに削減され、90%以上の分類精度を維持しました。

このような向上により、機械学習モデルをより安価なハードウェアで実行し、バッテリー寿命を延ばし、メモリと計算リソースを他のタスクに解放することが可能になります。効率のフロンティアを押し広げることで、より高度なAIワークロードをマイクロコントローラの範囲内に持ち込み、数十億のデバイスにますます高度なインテリジェンスを提供します。

私たちはMLPerf Tiny v1.4でシステムを評価しました。このベンチマークは、キーワードスポッティング、ビジュアルウェイクワード、CIFAR-10画像分類、異常検知の4つの代表的なエッジワークロードをカバーしています。各タスクには、キーワードスポッティングでは90%のトップ1精度、異常検知では0.85のAUCなど、事前定義された品質目標があります。各ワークロードの目標は、目標を達成しつつ、可能な限り小さく高速なモデルを生成することです。入力次元は固定され、参照モデルとの公平な比較が保証されます。

評価したボード全体で、私たちの探索システムとコンパイラは最大45倍の推論高速化と最大11分の1のRAM使用量削減を実現しました。メモリはマイクロコントローラの主要な制約であるため、これらのメモリ削減は特に重要です。あるケースでは、ベンダーツールチェーンではメモリ制限を超えていたモデルが、探索とコンパイル後に正常に動作しました。

私たちは2つの探索システムを並行して実行し、各タスクに最適なものを使用しました。MLPerf Tinyワークロードでは、4つの最終モデルのうち3つがニューラルアーキテクチャサーチ(NAS)システムから、異常検知モデルはエージェントベース探索から得られました。エージェントベースアーキテクチャ探索は、LLMエージェントを使用してアーキテクチャまたはトレーニングレシピの変更を1つ提案し、結果のモデルをトレーニングし、実ハードウェアでベンチマークし、ターゲットメトリックが改善された場合のみ変更を保持します。このアプローチはオープンエンドで、事前定義された探索空間外のアイデアも探索できますが、貪欲に動作し、一度に1つのモデルを改善します。スーパーネットNASは、Once-for-AllおよびMCUNetアプローチを拡張し、int8量子化認識トレーニングを使用してマイクロコントローラ展開に適応させ、入力解像度を固定して参照モデルとの公平な比較を可能にします。単一のスーパーネットから、サイズ、速度、精度のトレードオフが異なる多数のモデルに特化できます。

2つのアプローチは補完的な強みを持ちます。エージェントベース探索はコード内のアーキテクチャとトレーニングレシピの両方を変更でき、1つのモデルを段階的に改善します。スーパーネットNASは事前定義されたアーキテクチャ空間(深さ、カーネルサイズ、拡張率)を変更し、さまざまなトレードオフのモデルファミリを出力します。

長期的な目標は、タスクの定義からエッジデバイスへの最適化モデル展開までの、高効率モデル設計の自動化です。これを達成するために、NASとエージェントベース探索を組み合わせた単一の最適化ループの開発を進めています。同時に、従来のニューラルネットワーク層よりも少ないメモリで高速に動作する新しいDeepGate層を含む、探索システムで利用可能なニューラルネットワーク層のセットを拡大しています。これらの層を探索空間に組み込むことで、リソース制約のあるデバイス上でさらに高い効率を実現し、かつてはマイクロコントローラの能力を超えると考えられていたAIワークロードを可能にし、最終的に数十億のデバイスにますます高度なインテリジェンスを提供します。