AI News HubLIVE
站內改寫2 分鐘閱讀

AI網關基準測試:GoModel vs LiteLLM vs Portkey vs Bifrost

本文對比了四種AI網關在請求路徑上的運行時開銷,包括延遲、吞吐量、內存、CPU、冷啓動時間和鏡像大小。測試結果顯示,GoModel在幾乎所有指標上表現最優,而LiteLLM則因資源消耗巨大而成為短板。文章還討論了網關的開源中立性和對本地模型部署的影響。

來源Hacker News AI作者: santiago-pl

2026年6月26日,Jakub A. Wasek發表了一篇關於AI網關基準測試的詳細文章。文章指出,大多數AI網關的比較忽略了運行時開銷這一關鍵因素。作者最初基於LiteLLM構建自己的創業項目,但將其部署在熱路徑上後,發現其資源消耗過高。於是,他開發了GoModel——一個使用Go語言編寫的輕量級開源AI網關,並承諾進行可復現的基準測試。

基準測試在AWS c7i.large實例上進行,使用Docker部署,各網關連接相同的模擬後端以排除網絡抖動。測試涵蓋六種工作負載(包括聊天補全和響應API的流式與非流式模式),每種網關執行8000次請求,併發數為10。測試指標包括中位延遲、P99延遲、吞吐量、峯值內存、請求效率、冷啓動時間和Docker鏡像大小。

結果如下:GoModel表現最佳,中位延遲僅1.8毫秒,P99延遲6.9毫秒,吞吐量4900請求/秒,峯值內存37MB,冷啓動只需0.56秒,鏡像壓縮後僅16MB。Bifrost緊隨其後,中位延遲2.5毫秒,P99延遲18.3毫秒,吞吐量3100請求/秒,內存143MB,冷啓動7.1秒。Portkey中位延遲9.7毫秒,P99延遲30.5毫秒,吞吐量950請求/秒,內存112MB,冷啓動1.1秒。LiteLLM表現最差,中位延遲30.6毫秒,P99延遲39.3毫秒,吞吐量僅324請求/秒,內存高達2.3GB,冷啓動需要25.5秒,鏡像壓縮後372MB。

作者強調,這些數字決定了網關能否部署在目標環境中。例如,本地模型(如vLLM、Ollama)的響應時間較短,網關的開銷會顯著影響用户體驗。輕量級網關適合作為邊車或運行在小型虛擬機、無服務器和邊緣設備上。

文章還討論了開源和中立性問題。Bifrost由Maxim AI開發,與其評估平台緊密集成;Portkey的存儲、儀表板等功能位於閉源託管層;LiteLLM的企業版需要商業許可。GoModel目前完全開源,核心網關保持獨立。

基準測試的完整代碼和運行腳本已公開,讀者可通過“./run.sh”在AWS上覆現(需自付費用)。作者最後總結,他創建GoModel並非為了增加另一個AI網關,而是因為現有的網關在熱路徑上成為了問題本身。