2026-06-19站内改写2 分钟阅读更新: 2026-06-19

我们的边缘AI编译器超越谷歌和供应商工具链

DeepGate编译器v0.15.0将量化tflite模型编译为优化二进制文件，在Arm Cortex-M设备上相比谷歌TFLM减少多达3倍内存占用，运行速度提升2倍，并在多家供应商硬件上超越其自有工具链。

来源Hacker News AI作者: webstorms

边缘AI工具链仍落后于为大型GPU模型构建的编译器和运行时。大多数微控制器部署依赖谷歌的TensorFlow Lite for Microcontrollers（TFLM）或供应商特定变体——我们相信这种方法留下了大量性能未被挖掘。在边缘，效率决定了模型是否能够适配、实时运行或满足功耗预算。我们的目标是为CPU和AI加速器构建领先的边缘AI编译器，从最小的设备——微控制器开始。

我们发布了DeepGate编译器（v0.15.0），它将量化的.tflite模型编译为优化的推理二进制文件，在Arm Cortex-M设备上相比谷歌TFLM使用最多3倍更少的RAM，运行速度最高提升2倍。在我们的MLPerf Tiny评估中（微控制器上微型机器学习的基准套件），它在来自Analog Devices、Infineon、Silicon Labs和STM的芯片上均优于TFLM，同时还在其硬件上超越了Infineon和Silicon Labs的自有工具链。在某些情况下，我们的编译器使得原本无法适配内存的模型得以运行。

我们已在MLPerf Tiny v1.4基准套件上验证了DeepGate编译器（v0.15.0），该套件是微控制器上机器学习的行业标准基准。我们在来自四个硅供应商的四块开发板上运行，并将结果提交给MLPerf进行独立审查。该套件包括关键词识别、视觉唤醒词、图像分类和异常检测等代表性边缘AI工作负载。在不修改模型的情况下，我们的编译器比谷歌TFLM使用最多3倍更少的RAM，运行速度最高提升2倍。它还能超越供应商工具链：在EFR32MG24的AI加速器上，相比Silicon Labs的TFLM Simplicity SDK，实现最多3倍更低的RAM使用和1.8倍更快的推理；在PSoC 6上，相比Infineon的Imagimob，实现最多2倍更快的推理。我们的内存节省决定了模型是否能适配：在Analog Devices的MAX32655上，视觉唤醒词基准在TFLM下内存不足，但使用DeepGate编译器成功编译并执行。

实现有意义效率提升需要在多个维度进行优化，因此我们在所有维度上优化了编译器：它编译为静态二进制而非运行时解释器，在编译时规划整个图的内存分配，并应用超越Arm标准CMSIS-NN内核的硬件感知内核优化，包括通过硬件在环测试调优的自定义汇编例程。

我们仍处于优化路线图的早期阶段，在内存规划和内核优化等领域仍有重大机会。我们还在扩展对现有边缘AI工具链常忽视的方法的支持，包括稀疏网络、低位量化以及Transformer模型的高效注意力机制。展望未来，我们正在围绕DeepGate的新型ML构建块协同设计编译器，这些构建块减少了对昂贵矩阵乘法的依赖，并增加了原位计算的使用——为从根本上更适合受限硬件的模型铺平道路。

目前我们的编译器针对Arm Cortex-M CPU和选定的嵌入式AI加速器，我们正在积极扩展支持。我们很乐意听取哪些目标对您最重要。注册获取更新、申请平台访问权限，或如果有您希望我们下一步支持的设备，请与我们联系。