2026-06-27 00:04 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 00:16 UTC+8

AI網關基準測試：GoModel vs LiteLLM vs Portkey vs Bifrost

本文對比了四種AI網關在請求路徑上的運行時開銷，包括延遲、吞吐量、內存、CPU、冷啓動時間和鏡像大小。測試結果顯示，GoModel在幾乎所有指標上表現最優，而LiteLLM則因資源消耗巨大而成為短板。文章還討論了網關的開源中立性和對本地模型部署的影響。

來源Hacker News AI作者: santiago-pl

2026年6月26日，Jakub A. Wasek發表了一篇關於AI網關基準測試的詳細文章。文章指出，大多數AI網關的比較忽略了運行時開銷這一關鍵因素。作者最初基於LiteLLM構建自己的創業項目，但將其部署在熱路徑上後，發現其資源消耗過高。於是，他開發了GoModel——一個使用Go語言編寫的輕量級開源AI網關，並承諾進行可復現的基準測試。

基準測試在AWS c7i.large實例上進行，使用Docker部署，各網關連接相同的模擬後端以排除網絡抖動。測試涵蓋六種工作負載（包括聊天補全和響應API的流式與非流式模式），每種網關執行8000次請求，併發數為10。測試指標包括中位延遲、P99延遲、吞吐量、峯值內存、請求效率、冷啓動時間和Docker鏡像大小。

結果如下：GoModel表現最佳，中位延遲僅1.8毫秒，P99延遲6.9毫秒，吞吐量4900請求/秒，峯值內存37MB，冷啓動只需0.56秒，鏡像壓縮後僅16MB。Bifrost緊隨其後，中位延遲2.5毫秒，P99延遲18.3毫秒，吞吐量3100請求/秒，內存143MB，冷啓動7.1秒。Portkey中位延遲9.7毫秒，P99延遲30.5毫秒，吞吐量950請求/秒，內存112MB，冷啓動1.1秒。LiteLLM表現最差，中位延遲30.6毫秒，P99延遲39.3毫秒，吞吐量僅324請求/秒，內存高達2.3GB，冷啓動需要25.5秒，鏡像壓縮後372MB。

作者強調，這些數字決定了網關能否部署在目標環境中。例如，本地模型（如vLLM、Ollama）的響應時間較短，網關的開銷會顯著影響用户體驗。輕量級網關適合作為邊車或運行在小型虛擬機、無服務器和邊緣設備上。

文章還討論了開源和中立性問題。Bifrost由Maxim AI開發，與其評估平台緊密集成；Portkey的存儲、儀表板等功能位於閉源託管層；LiteLLM的企業版需要商業許可。GoModel目前完全開源，核心網關保持獨立。

基準測試的完整代碼和運行腳本已公開，讀者可通過“./run.sh”在AWS上覆現（需自付費用）。作者最後總結，他創建GoModel並非為了增加另一個AI網關，而是因為現有的網關在熱路徑上成為了問題本身。