2026-07-01 07:48 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 08:29 UTC+8

RunInfra：將任何開放模型優化至內核，5分鐘部署

RunInfra是一個AI推理優化平台，可自動為開放模型選擇最佳的推理引擎、GPU和配置，並提供可部署的堆棧。它通過基準測試和調優，大幅降低延遲、提高吞吐量並降低成本。

來源Hacker News AI作者: OsamaJaber

RunInfra 是一個專為開放模型生產部署設計的推理優化平台，它能夠自動為任何開放模型選擇最佳的推理引擎、GPU 和配置，並提供可直接運行的部署堆棧。該平台由 Y Combinator 支持，旨在簡化 AI 模型的生產化流程。

用户只需描述推理工作負載，RunInfra 便會自動評估兼容的模型和引擎。它支持 vLLM、SGLang、TensorRT-LLM 等多種推理引擎，並針對 NVIDIA 的多種 GPU（如 L4、L40S、A100、H100、H200、B200）進行優化。平台會運行基準測試，比較不同配置下的延遲、吞吐量、顯存佔用和成本，並自動選擇最優組合。

在優化過程中，RunInfra 應用一系列高級技術，包括 AWQ int4 量化、FlashAttention v2 內核、連續批處理、分頁 KV 緩存、CUDA 圖捕獲、推測解碼、前綴緩存等。這些優化完全自動化，無需用户手動配置。最終輸出包括詳細的基準測試報告、優化後的運行時配置以及可導出的部署套件（Dockerfile、serve.py 等）。

以 Llama 3.1 8B 模型在 vLLM 引擎上的優化為例，RunInfra 推薦 L40S GPU 作為最佳性價比選擇。優化後，p95 延遲從 184ms 降至 38ms（降低 79%），首 token 時間從 120ms 降至 22ms（降低 82%），吞吐量從 45 tok/s 提升至 142 tok/s（提升 216%），顯存佔用從 28.4 GB 降至 12.1 GB（降低 57%），每百萬 token 成本從 $0.42 降至 $0.12（降低 71%）。

部署方面，用户可以選擇由 RunInfra 託管（按 token 付費），也可以導出堆棧到自己的 RunPod、Modal 或本地硬件。平台強調數據隱私和控制權，支持端到端加密、隔離的 GPU 基礎設施以及零數據保留。RunInfra 已通過 SOC 2 Type II 認證。

RunInfra 支持廣泛的模型生態系統，涵蓋 LLM、ASR、圖像、視頻、嵌入、分類、TTS、重排序等多種任務。支持的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。憑藉其自動化的優化 pipelines 和靈活的部署選項，RunInfra 為 AI 工程師提供了一種高效且可重複的生產級推理部署方案。