2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

我們的邊緣AI編譯器超越谷歌和供應商工具鏈

DeepGate編譯器v0.15.0將量化tflite模型編譯為最佳化二進位制檔案，在Arm Cortex-M裝置上相比谷歌TFLM減少多達3倍記憶體佔用，執行速度提升2倍，並在多家供應商硬體上超越其自有工具鏈。

來源Hacker News AI作者: webstorms

邊緣AI工具鏈仍落後於為大型GPU模型構建的編譯器和執行時。大多數微控制器部署依賴谷歌的TensorFlow Lite for Microcontrollers（TFLM）或供應商特定變體——我們相信這種方法留下了大量效能未被挖掘。在邊緣，效率決定了模型是否能夠適配、即時執行或滿足功耗預算。我們的目標是為CPU和AI加速器構建領先的邊緣AI編譯器，從最小的裝置——微控制器開始。

我們釋出了DeepGate編譯器（v0.15.0），它將量化的.tflite模型編譯為最佳化的推理二進位制檔案，在Arm Cortex-M裝置上相比谷歌TFLM使用最多3倍更少的RAM，執行速度最高提升2倍。在我們的MLPerf Tiny評估中（微控制器上微型機器學習的基準套件），它在來自Analog Devices、Infineon、Silicon Labs和STM的晶片上均優於TFLM，同時還在其硬體上超越了Infineon和Silicon Labs的自有工具鏈。在某些情況下，我們的編譯器使得原本無法適配記憶體的模型得以執行。

我們已在MLPerf Tiny v1.4基準套件上驗證了DeepGate編譯器（v0.15.0），該套件是微控制器上機器學習的行業標準基準。我們在來自四個矽供應商的四塊開發板上執行，並將結果提交給MLPerf進行獨立審查。該套件包括關鍵詞識別、視覺喚醒詞、影像分類和異常檢測等代表性邊緣AI工作負載。在不修改模型的情況下，我們的編譯器比谷歌TFLM使用最多3倍更少的RAM，執行速度最高提升2倍。它還能超越供應商工具鏈：在EFR32MG24的AI加速器上，相比Silicon Labs的TFLM Simplicity SDK，實現最多3倍更低的RAM使用和1.8倍更快的推理；在PSoC 6上，相比Infineon的Imagimob，實現最多2倍更快的推理。我們的記憶體節省決定了模型是否能適配：在Analog Devices的MAX32655上，視覺喚醒詞基準在TFLM下記憶體不足，但使用DeepGate編譯器成功編譯並執行。

實現有意義效率提升需要在多個維度進行最佳化，因此我們在所有維度上最佳化了編譯器：它編譯為靜態二進位制而非執行時直譯器，在編譯時規劃整個圖的記憶體分配，並應用超越Arm標準CMSIS-NN核心的硬體感知核心最佳化，包括透過硬體在環測試調優的自定義彙編例程。

我們仍處於最佳化路線圖的早期階段，在記憶體規劃和核心最佳化等領域仍有重大機會。我們還在擴充套件對現有邊緣AI工具鏈常忽視的方法的支援，包括稀疏網路、低位量化以及Transformer模型的高效注意力機制。展望未來，我們正在圍繞DeepGate的新型ML構建塊協同設計編譯器，這些構建塊減少了對昂貴矩陣乘法的依賴，並增加了原位計算的使用——為從根本上更適合受限硬體的模型鋪平道路。

目前我們的編譯器針對Arm Cortex-M CPU和選定的嵌入式AI加速器，我們正在積極擴充套件支援。我們很樂意聽取哪些目標對您最重要。註冊獲取更新、申請平臺訪問許可權，或如果有您希望我們下一步支援的裝置，請與我們聯絡。