AI News HubLIVE
站内改写2 分钟阅读

我们的边缘AI编译器超越谷歌和供应商工具链

DeepGate编译器v0.15.0将量化tflite模型编译为优化二进制文件,在Arm Cortex-M设备上相比谷歌TFLM减少多达3倍内存占用,运行速度提升2倍,并在多家供应商硬件上超越其自有工具链。

来源Hacker News AI作者: webstorms

边缘AI工具链仍落后于为大型GPU模型构建的编译器和运行时。大多数微控制器部署依赖谷歌的TensorFlow Lite for Microcontrollers(TFLM)或供应商特定变体——我们相信这种方法留下了大量性能未被挖掘。在边缘,效率决定了模型是否能够适配、实时运行或满足功耗预算。我们的目标是为CPU和AI加速器构建领先的边缘AI编译器,从最小的设备——微控制器开始。

我们发布了DeepGate编译器(v0.15.0),它将量化的.tflite模型编译为优化的推理二进制文件,在Arm Cortex-M设备上相比谷歌TFLM使用最多3倍更少的RAM,运行速度最高提升2倍。在我们的MLPerf Tiny评估中(微控制器上微型机器学习的基准套件),它在来自Analog Devices、Infineon、Silicon Labs和STM的芯片上均优于TFLM,同时还在其硬件上超越了Infineon和Silicon Labs的自有工具链。在某些情况下,我们的编译器使得原本无法适配内存的模型得以运行。

我们已在MLPerf Tiny v1.4基准套件上验证了DeepGate编译器(v0.15.0),该套件是微控制器上机器学习的行业标准基准。我们在来自四个硅供应商的四块开发板上运行,并将结果提交给MLPerf进行独立审查。该套件包括关键词识别、视觉唤醒词、图像分类和异常检测等代表性边缘AI工作负载。在不修改模型的情况下,我们的编译器比谷歌TFLM使用最多3倍更少的RAM,运行速度最高提升2倍。它还能超越供应商工具链:在EFR32MG24的AI加速器上,相比Silicon Labs的TFLM Simplicity SDK,实现最多3倍更低的RAM使用和1.8倍更快的推理;在PSoC 6上,相比Infineon的Imagimob,实现最多2倍更快的推理。我们的内存节省决定了模型是否能适配:在Analog Devices的MAX32655上,视觉唤醒词基准在TFLM下内存不足,但使用DeepGate编译器成功编译并执行。

实现有意义效率提升需要在多个维度进行优化,因此我们在所有维度上优化了编译器:它编译为静态二进制而非运行时解释器,在编译时规划整个图的内存分配,并应用超越Arm标准CMSIS-NN内核的硬件感知内核优化,包括通过硬件在环测试调优的自定义汇编例程。

我们仍处于优化路线图的早期阶段,在内存规划和内核优化等领域仍有重大机会。我们还在扩展对现有边缘AI工具链常忽视的方法的支持,包括稀疏网络、低位量化以及Transformer模型的高效注意力机制。展望未来,我们正在围绕DeepGate的新型ML构建块协同设计编译器,这些构建块减少了对昂贵矩阵乘法的依赖,并增加了原位计算的使用——为从根本上更适合受限硬件的模型铺平道路。

目前我们的编译器针对Arm Cortex-M CPU和选定的嵌入式AI加速器,我们正在积极扩展支持。我们很乐意听取哪些目标对您最重要。注册获取更新、申请平台访问权限,或如果有您希望我们下一步支持的设备,请与我们联系。