2026-06-27 00:04 UTC+8站内改写2 分钟阅读更新: 2026-06-27 00:16 UTC+8

AI网关基准测试：GoModel vs LiteLLM vs Portkey vs Bifrost

本文对比了四种AI网关在请求路径上的运行时开销，包括延迟、吞吐量、内存、CPU、冷启动时间和镜像大小。测试结果显示，GoModel在几乎所有指标上表现最优，而LiteLLM则因资源消耗巨大而成为短板。文章还讨论了网关的开源中立性和对本地模型部署的影响。

来源Hacker News AI作者: santiago-pl

2026年6月26日，Jakub A. Wasek发表了一篇关于AI网关基准测试的详细文章。文章指出，大多数AI网关的比较忽略了运行时开销这一关键因素。作者最初基于LiteLLM构建自己的创业项目，但将其部署在热路径上后，发现其资源消耗过高。于是，他开发了GoModel——一个使用Go语言编写的轻量级开源AI网关，并承诺进行可复现的基准测试。

基准测试在AWS c7i.large实例上进行，使用Docker部署，各网关连接相同的模拟后端以排除网络抖动。测试涵盖六种工作负载（包括聊天补全和响应API的流式与非流式模式），每种网关执行8000次请求，并发数为10。测试指标包括中位延迟、P99延迟、吞吐量、峰值内存、请求效率、冷启动时间和Docker镜像大小。

结果如下：GoModel表现最佳，中位延迟仅1.8毫秒，P99延迟6.9毫秒，吞吐量4900请求/秒，峰值内存37MB，冷启动只需0.56秒，镜像压缩后仅16MB。Bifrost紧随其后，中位延迟2.5毫秒，P99延迟18.3毫秒，吞吐量3100请求/秒，内存143MB，冷启动7.1秒。Portkey中位延迟9.7毫秒，P99延迟30.5毫秒，吞吐量950请求/秒，内存112MB，冷启动1.1秒。LiteLLM表现最差，中位延迟30.6毫秒，P99延迟39.3毫秒，吞吐量仅324请求/秒，内存高达2.3GB，冷启动需要25.5秒，镜像压缩后372MB。

作者强调，这些数字决定了网关能否部署在目标环境中。例如，本地模型（如vLLM、Ollama）的响应时间较短，网关的开销会显著影响用户体验。轻量级网关适合作为边车或运行在小型虚拟机、无服务器和边缘设备上。

文章还讨论了开源和中立性问题。Bifrost由Maxim AI开发，与其评估平台紧密集成；Portkey的存储、仪表板等功能位于闭源托管层；LiteLLM的企业版需要商业许可。GoModel目前完全开源，核心网关保持独立。

基准测试的完整代码和运行脚本已公开，读者可通过“./run.sh”在AWS上复现（需自付费用）。作者最后总结，他创建GoModel并非为了增加另一个AI网关，而是因为现有的网关在热路径上成为了问题本身。