2026-07-01 07:48 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 08:29 UTC+8

RunInfra：將任何開放模型最佳化至核心，5分鐘部署

RunInfra是一個AI推理最佳化平臺，可自動為開放模型選擇最佳的推理引擎、GPU和配置，並提供可部署的堆疊。它透過基準測試和調優，大幅降低延遲、提高吞吐量並降低成本。

來源Hacker News AI作者: OsamaJaber

RunInfra 是一個專為開放模型生產部署設計的推理最佳化平臺，它能夠自動為任何開放模型選擇最佳的推理引擎、GPU 和配置，並提供可直接執行的部署堆疊。該平臺由 Y Combinator 支援，旨在簡化 AI 模型的生產化流程。

使用者只需描述推理工作負載，RunInfra 便會自動評估相容的模型和引擎。它支援 vLLM、SGLang、TensorRT-LLM 等多種推理引擎，並針對 NVIDIA 的多種 GPU（如 L4、L40S、A100、H100、H200、B200）進行最佳化。平臺會執行基準測試，比較不同配置下的延遲、吞吐量、視訊記憶體佔用和成本，並自動選擇最優組合。

在最佳化過程中，RunInfra 應用一系列高階技術，包括 AWQ int4 量化、FlashAttention v2 核心、連續批處理、分頁 KV 快取、CUDA 圖捕獲、推測解碼、字首快取等。這些最佳化完全自動化，無需使用者手動配置。最終輸出包括詳細的基準測試報告、最佳化後的執行時配置以及可匯出的部署套件（Dockerfile、serve.py 等）。

以 Llama 3.1 8B 模型在 vLLM 引擎上的最佳化為例，RunInfra 推薦 L40S GPU 作為最佳價效比選擇。最佳化後，p95 延遲從 184ms 降至 38ms（降低 79%），首 token 時間從 120ms 降至 22ms（降低 82%），吞吐量從 45 tok/s 提升至 142 tok/s（提升 216%），視訊記憶體佔用從 28.4 GB 降至 12.1 GB（降低 57%），每百萬 token 成本從 $0.42 降至 $0.12（降低 71%）。

部署方面，使用者可以選擇由 RunInfra 託管（按 token 付費），也可以匯出堆疊到自己的 RunPod、Modal 或本地硬體。平臺強調資料隱私和控制權，支援端到端加密、隔離的 GPU 基礎設施以及零資料保留。RunInfra 已透過 SOC 2 Type II 認證。

RunInfra 支援廣泛的模型生態系統，涵蓋 LLM、ASR、影像、影片、嵌入、分類、TTS、重排序等多種任務。支援的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。憑藉其自動化的最佳化 pipelines 和靈活的部署選項，RunInfra 為 AI 工程師提供了一種高效且可重複的生產級推理部署方案。