AI News HubLIVE
站内改写2 分鐘閱讀

我們的邊緣AI編譯器超越谷歌和供應商工具鏈

DeepGate編譯器v0.15.0將量化tflite模型編譯為優化二進制文件,在Arm Cortex-M設備上相比谷歌TFLM減少多達3倍內存佔用,運行速度提升2倍,並在多家供應商硬件上超越其自有工具鏈。

來源Hacker News AI作者: webstorms

邊緣AI工具鏈仍落後於為大型GPU模型構建的編譯器和運行時。大多數微控制器部署依賴谷歌的TensorFlow Lite for Microcontrollers(TFLM)或供應商特定變體——我們相信這種方法留下了大量性能未被挖掘。在邊緣,效率決定了模型是否能夠適配、實時運行或滿足功耗預算。我們的目標是為CPU和AI加速器構建領先的邊緣AI編譯器,從最小的設備——微控制器開始。

我們發佈了DeepGate編譯器(v0.15.0),它將量化的.tflite模型編譯為優化的推理二進制文件,在Arm Cortex-M設備上相比谷歌TFLM使用最多3倍更少的RAM,運行速度最高提升2倍。在我們的MLPerf Tiny評估中(微控制器上微型機器學習的基準套件),它在來自Analog Devices、Infineon、Silicon Labs和STM的芯片上均優於TFLM,同時還在其硬件上超越了Infineon和Silicon Labs的自有工具鏈。在某些情況下,我們的編譯器使得原本無法適配內存的模型得以運行。

我們已在MLPerf Tiny v1.4基準套件上驗證了DeepGate編譯器(v0.15.0),該套件是微控制器上機器學習的行業標準基準。我們在來自四個硅供應商的四塊開發板上運行,並將結果提交給MLPerf進行獨立審查。該套件包括關鍵詞識別、視覺喚醒詞、圖像分類和異常檢測等代表性邊緣AI工作負載。在不修改模型的情況下,我們的編譯器比谷歌TFLM使用最多3倍更少的RAM,運行速度最高提升2倍。它還能超越供應商工具鏈:在EFR32MG24的AI加速器上,相比Silicon Labs的TFLM Simplicity SDK,實現最多3倍更低的RAM使用和1.8倍更快的推理;在PSoC 6上,相比Infineon的Imagimob,實現最多2倍更快的推理。我們的內存節省決定了模型是否能適配:在Analog Devices的MAX32655上,視覺喚醒詞基準在TFLM下內存不足,但使用DeepGate編譯器成功編譯並執行。

實現有意義效率提升需要在多個維度進行優化,因此我們在所有維度上優化了編譯器:它編譯為靜態二進制而非運行時解釋器,在編譯時規劃整個圖的內存分配,並應用超越Arm標準CMSIS-NN內核的硬件感知內核優化,包括通過硬件在環測試調優的自定義彙編例程。

我們仍處於優化路線圖的早期階段,在內存規劃和內核優化等領域仍有重大機會。我們還在擴展對現有邊緣AI工具鏈常忽視的方法的支持,包括稀疏網絡、低位量化以及Transformer模型的高效注意力機制。展望未來,我們正在圍繞DeepGate的新型ML構建塊協同設計編譯器,這些構建塊減少了對昂貴矩陣乘法的依賴,並增加了原位計算的使用——為從根本上更適合受限硬件的模型鋪平道路。

目前我們的編譯器針對Arm Cortex-M CPU和選定的嵌入式AI加速器,我們正在積極擴展支持。我們很樂意聽取哪些目標對您最重要。註冊獲取更新、申請平台訪問權限,或如果有您希望我們下一步支持的設備,請與我們聯繫。