我們的邊緣AI編譯器超越谷歌和供應商工具鏈
DeepGate編譯器v0.15.0將量化tflite模型編譯為最佳化二進位制檔案,在Arm Cortex-M裝置上相比谷歌TFLM減少多達3倍記憶體佔用,執行速度提升2倍,並在多家供應商硬體上超越其自有工具鏈。
邊緣AI工具鏈仍落後於為大型GPU模型構建的編譯器和執行時。大多數微控制器部署依賴谷歌的TensorFlow Lite for Microcontrollers(TFLM)或供應商特定變體——我們相信這種方法留下了大量效能未被挖掘。在邊緣,效率決定了模型是否能夠適配、即時執行或滿足功耗預算。我們的目標是為CPU和AI加速器構建領先的邊緣AI編譯器,從最小的裝置——微控制器開始。
我們釋出了DeepGate編譯器(v0.15.0),它將量化的.tflite模型編譯為最佳化的推理二進位制檔案,在Arm Cortex-M裝置上相比谷歌TFLM使用最多3倍更少的RAM,執行速度最高提升2倍。在我們的MLPerf Tiny評估中(微控制器上微型機器學習的基準套件),它在來自Analog Devices、Infineon、Silicon Labs和STM的晶片上均優於TFLM,同時還在其硬體上超越了Infineon和Silicon Labs的自有工具鏈。在某些情況下,我們的編譯器使得原本無法適配記憶體的模型得以執行。
我們已在MLPerf Tiny v1.4基準套件上驗證了DeepGate編譯器(v0.15.0),該套件是微控制器上機器學習的行業標準基準。我們在來自四個矽供應商的四塊開發板上執行,並將結果提交給MLPerf進行獨立審查。該套件包括關鍵詞識別、視覺喚醒詞、影像分類和異常檢測等代表性邊緣AI工作負載。在不修改模型的情況下,我們的編譯器比谷歌TFLM使用最多3倍更少的RAM,執行速度最高提升2倍。它還能超越供應商工具鏈:在EFR32MG24的AI加速器上,相比Silicon Labs的TFLM Simplicity SDK,實現最多3倍更低的RAM使用和1.8倍更快的推理;在PSoC 6上,相比Infineon的Imagimob,實現最多2倍更快的推理。我們的記憶體節省決定了模型是否能適配:在Analog Devices的MAX32655上,視覺喚醒詞基準在TFLM下記憶體不足,但使用DeepGate編譯器成功編譯並執行。
實現有意義效率提升需要在多個維度進行最佳化,因此我們在所有維度上最佳化了編譯器:它編譯為靜態二進位制而非執行時直譯器,在編譯時規劃整個圖的記憶體分配,並應用超越Arm標準CMSIS-NN核心的硬體感知核心最佳化,包括透過硬體在環測試調優的自定義彙編例程。
我們仍處於最佳化路線圖的早期階段,在記憶體規劃和核心最佳化等領域仍有重大機會。我們還在擴充套件對現有邊緣AI工具鏈常忽視的方法的支援,包括稀疏網路、低位量化以及Transformer模型的高效注意力機制。展望未來,我們正在圍繞DeepGate的新型ML構建塊協同設計編譯器,這些構建塊減少了對昂貴矩陣乘法的依賴,並增加了原位計算的使用——為從根本上更適合受限硬體的模型鋪平道路。
目前我們的編譯器針對Arm Cortex-M CPU和選定的嵌入式AI加速器,我們正在積極擴充套件支援。我們很樂意聽取哪些目標對您最重要。註冊獲取更新、申請平臺訪問許可權,或如果有您希望我們下一步支援的裝置,請與我們聯絡。