RunInfra:將任何開放模型最佳化至核心,5分鐘部署
RunInfra是一個AI推理最佳化平臺,可自動為開放模型選擇最佳的推理引擎、GPU和配置,並提供可部署的堆疊。它透過基準測試和調優,大幅降低延遲、提高吞吐量並降低成本。
RunInfra 是一個專為開放模型生產部署設計的推理最佳化平臺,它能夠自動為任何開放模型選擇最佳的推理引擎、GPU 和配置,並提供可直接執行的部署堆疊。該平臺由 Y Combinator 支援,旨在簡化 AI 模型的生產化流程。
使用者只需描述推理工作負載,RunInfra 便會自動評估相容的模型和引擎。它支援 vLLM、SGLang、TensorRT-LLM 等多種推理引擎,並針對 NVIDIA 的多種 GPU(如 L4、L40S、A100、H100、H200、B200)進行最佳化。平臺會執行基準測試,比較不同配置下的延遲、吞吐量、視訊記憶體佔用和成本,並自動選擇最優組合。
在最佳化過程中,RunInfra 應用一系列高階技術,包括 AWQ int4 量化、FlashAttention v2 核心、連續批處理、分頁 KV 快取、CUDA 圖捕獲、推測解碼、字首快取等。這些最佳化完全自動化,無需使用者手動配置。最終輸出包括詳細的基準測試報告、最佳化後的執行時配置以及可匯出的部署套件(Dockerfile、serve.py 等)。
以 Llama 3.1 8B 模型在 vLLM 引擎上的最佳化為例,RunInfra 推薦 L40S GPU 作為最佳價效比選擇。最佳化後,p95 延遲從 184ms 降至 38ms(降低 79%),首 token 時間從 120ms 降至 22ms(降低 82%),吞吐量從 45 tok/s 提升至 142 tok/s(提升 216%),視訊記憶體佔用從 28.4 GB 降至 12.1 GB(降低 57%),每百萬 token 成本從 $0.42 降至 $0.12(降低 71%)。
部署方面,使用者可以選擇由 RunInfra 託管(按 token 付費),也可以匯出堆疊到自己的 RunPod、Modal 或本地硬體。平臺強調資料隱私和控制權,支援端到端加密、隔離的 GPU 基礎設施以及零資料保留。RunInfra 已透過 SOC 2 Type II 認證。
RunInfra 支援廣泛的模型生態系統,涵蓋 LLM、ASR、影像、影片、嵌入、分類、TTS、重排序等多種任務。支援的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。憑藉其自動化的最佳化 pipelines 和靈活的部署選項,RunInfra 為 AI 工程師提供了一種高效且可重複的生產級推理部署方案。