2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

我們的邊緣AI編譯器超越谷歌和供應商工具鏈

DeepGate編譯器v0.15.0將量化tflite模型編譯為優化二進制文件，在Arm Cortex-M設備上相比谷歌TFLM減少多達3倍內存佔用，運行速度提升2倍，並在多家供應商硬件上超越其自有工具鏈。

來源Hacker News AI作者: webstorms

邊緣AI工具鏈仍落後於為大型GPU模型構建的編譯器和運行時。大多數微控制器部署依賴谷歌的TensorFlow Lite for Microcontrollers（TFLM）或供應商特定變體——我們相信這種方法留下了大量性能未被挖掘。在邊緣，效率決定了模型是否能夠適配、實時運行或滿足功耗預算。我們的目標是為CPU和AI加速器構建領先的邊緣AI編譯器，從最小的設備——微控制器開始。

我們發佈了DeepGate編譯器（v0.15.0），它將量化的.tflite模型編譯為優化的推理二進制文件，在Arm Cortex-M設備上相比谷歌TFLM使用最多3倍更少的RAM，運行速度最高提升2倍。在我們的MLPerf Tiny評估中（微控制器上微型機器學習的基準套件），它在來自Analog Devices、Infineon、Silicon Labs和STM的芯片上均優於TFLM，同時還在其硬件上超越了Infineon和Silicon Labs的自有工具鏈。在某些情況下，我們的編譯器使得原本無法適配內存的模型得以運行。

我們已在MLPerf Tiny v1.4基準套件上驗證了DeepGate編譯器（v0.15.0），該套件是微控制器上機器學習的行業標準基準。我們在來自四個硅供應商的四塊開發板上運行，並將結果提交給MLPerf進行獨立審查。該套件包括關鍵詞識別、視覺喚醒詞、圖像分類和異常檢測等代表性邊緣AI工作負載。在不修改模型的情況下，我們的編譯器比谷歌TFLM使用最多3倍更少的RAM，運行速度最高提升2倍。它還能超越供應商工具鏈：在EFR32MG24的AI加速器上，相比Silicon Labs的TFLM Simplicity SDK，實現最多3倍更低的RAM使用和1.8倍更快的推理；在PSoC 6上，相比Infineon的Imagimob，實現最多2倍更快的推理。我們的內存節省決定了模型是否能適配：在Analog Devices的MAX32655上，視覺喚醒詞基準在TFLM下內存不足，但使用DeepGate編譯器成功編譯並執行。

實現有意義效率提升需要在多個維度進行優化，因此我們在所有維度上優化了編譯器：它編譯為靜態二進制而非運行時解釋器，在編譯時規劃整個圖的內存分配，並應用超越Arm標準CMSIS-NN內核的硬件感知內核優化，包括通過硬件在環測試調優的自定義彙編例程。

我們仍處於優化路線圖的早期階段，在內存規劃和內核優化等領域仍有重大機會。我們還在擴展對現有邊緣AI工具鏈常忽視的方法的支持，包括稀疏網絡、低位量化以及Transformer模型的高效注意力機制。展望未來，我們正在圍繞DeepGate的新型ML構建塊協同設計編譯器，這些構建塊減少了對昂貴矩陣乘法的依賴，並增加了原位計算的使用——為從根本上更適合受限硬件的模型鋪平道路。

目前我們的編譯器針對Arm Cortex-M CPU和選定的嵌入式AI加速器，我們正在積極擴展支持。我們很樂意聽取哪些目標對您最重要。註冊獲取更新、申請平台訪問權限，或如果有您希望我們下一步支持的設備，請與我們聯繫。