AI网关基准测试:GoModel vs LiteLLM vs Portkey vs Bifrost
本文对比了四种AI网关在请求路径上的运行时开销,包括延迟、吞吐量、内存、CPU、冷启动时间和镜像大小。测试结果显示,GoModel在几乎所有指标上表现最优,而LiteLLM则因资源消耗巨大而成为短板。文章还讨论了网关的开源中立性和对本地模型部署的影响。
2026年6月26日,Jakub A. Wasek发表了一篇关于AI网关基准测试的详细文章。文章指出,大多数AI网关的比较忽略了运行时开销这一关键因素。作者最初基于LiteLLM构建自己的创业项目,但将其部署在热路径上后,发现其资源消耗过高。于是,他开发了GoModel——一个使用Go语言编写的轻量级开源AI网关,并承诺进行可复现的基准测试。
基准测试在AWS c7i.large实例上进行,使用Docker部署,各网关连接相同的模拟后端以排除网络抖动。测试涵盖六种工作负载(包括聊天补全和响应API的流式与非流式模式),每种网关执行8000次请求,并发数为10。测试指标包括中位延迟、P99延迟、吞吐量、峰值内存、请求效率、冷启动时间和Docker镜像大小。
结果如下:GoModel表现最佳,中位延迟仅1.8毫秒,P99延迟6.9毫秒,吞吐量4900请求/秒,峰值内存37MB,冷启动只需0.56秒,镜像压缩后仅16MB。Bifrost紧随其后,中位延迟2.5毫秒,P99延迟18.3毫秒,吞吐量3100请求/秒,内存143MB,冷启动7.1秒。Portkey中位延迟9.7毫秒,P99延迟30.5毫秒,吞吐量950请求/秒,内存112MB,冷启动1.1秒。LiteLLM表现最差,中位延迟30.6毫秒,P99延迟39.3毫秒,吞吐量仅324请求/秒,内存高达2.3GB,冷启动需要25.5秒,镜像压缩后372MB。
作者强调,这些数字决定了网关能否部署在目标环境中。例如,本地模型(如vLLM、Ollama)的响应时间较短,网关的开销会显著影响用户体验。轻量级网关适合作为边车或运行在小型虚拟机、无服务器和边缘设备上。
文章还讨论了开源和中立性问题。Bifrost由Maxim AI开发,与其评估平台紧密集成;Portkey的存储、仪表板等功能位于闭源托管层;LiteLLM的企业版需要商业许可。GoModel目前完全开源,核心网关保持独立。
基准测试的完整代码和运行脚本已公开,读者可通过“./run.sh”在AWS上复现(需自付费用)。作者最后总结,他创建GoModel并非为了增加另一个AI网关,而是因为现有的网关在热路径上成为了问题本身。