RunInfra:將任何開放模型優化至內核,5分鐘部署
RunInfra是一個AI推理優化平台,可自動為開放模型選擇最佳的推理引擎、GPU和配置,並提供可部署的堆棧。它通過基準測試和調優,大幅降低延遲、提高吞吐量並降低成本。
RunInfra 是一個專為開放模型生產部署設計的推理優化平台,它能夠自動為任何開放模型選擇最佳的推理引擎、GPU 和配置,並提供可直接運行的部署堆棧。該平台由 Y Combinator 支持,旨在簡化 AI 模型的生產化流程。
用户只需描述推理工作負載,RunInfra 便會自動評估兼容的模型和引擎。它支持 vLLM、SGLang、TensorRT-LLM 等多種推理引擎,並針對 NVIDIA 的多種 GPU(如 L4、L40S、A100、H100、H200、B200)進行優化。平台會運行基準測試,比較不同配置下的延遲、吞吐量、顯存佔用和成本,並自動選擇最優組合。
在優化過程中,RunInfra 應用一系列高級技術,包括 AWQ int4 量化、FlashAttention v2 內核、連續批處理、分頁 KV 緩存、CUDA 圖捕獲、推測解碼、前綴緩存等。這些優化完全自動化,無需用户手動配置。最終輸出包括詳細的基準測試報告、優化後的運行時配置以及可導出的部署套件(Dockerfile、serve.py 等)。
以 Llama 3.1 8B 模型在 vLLM 引擎上的優化為例,RunInfra 推薦 L40S GPU 作為最佳性價比選擇。優化後,p95 延遲從 184ms 降至 38ms(降低 79%),首 token 時間從 120ms 降至 22ms(降低 82%),吞吐量從 45 tok/s 提升至 142 tok/s(提升 216%),顯存佔用從 28.4 GB 降至 12.1 GB(降低 57%),每百萬 token 成本從 $0.42 降至 $0.12(降低 71%)。
部署方面,用户可以選擇由 RunInfra 託管(按 token 付費),也可以導出堆棧到自己的 RunPod、Modal 或本地硬件。平台強調數據隱私和控制權,支持端到端加密、隔離的 GPU 基礎設施以及零數據保留。RunInfra 已通過 SOC 2 Type II 認證。
RunInfra 支持廣泛的模型生態系統,涵蓋 LLM、ASR、圖像、視頻、嵌入、分類、TTS、重排序等多種任務。支持的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。憑藉其自動化的優化 pipelines 和靈活的部署選項,RunInfra 為 AI 工程師提供了一種高效且可重複的生產級推理部署方案。