2026-07-01 07:48 UTC+8站内改写1 分钟阅读更新: 2026-07-01 08:29 UTC+8

RunInfra：将任何开放模型优化至内核，5分钟部署

RunInfra是一个AI推理优化平台，可自动为开放模型选择最佳的推理引擎、GPU和配置，并提供可部署的堆栈。它通过基准测试和调优，大幅降低延迟、提高吞吐量并降低成本。

来源Hacker News AI作者: OsamaJaber

RunInfra 是一个专为开放模型生产部署设计的推理优化平台，它能够自动为任何开放模型选择最佳的推理引擎、GPU 和配置，并提供可直接运行的部署堆栈。该平台由 Y Combinator 支持，旨在简化 AI 模型的生产化流程。

用户只需描述推理工作负载，RunInfra 便会自动评估兼容的模型和引擎。它支持 vLLM、SGLang、TensorRT-LLM 等多种推理引擎，并针对 NVIDIA 的多种 GPU（如 L4、L40S、A100、H100、H200、B200）进行优化。平台会运行基准测试，比较不同配置下的延迟、吞吐量、显存占用和成本，并自动选择最优组合。

在优化过程中，RunInfra 应用一系列高级技术，包括 AWQ int4 量化、FlashAttention v2 内核、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存等。这些优化完全自动化，无需用户手动配置。最终输出包括详细的基准测试报告、优化后的运行时配置以及可导出的部署套件（Dockerfile、serve.py 等）。

以 Llama 3.1 8B 模型在 vLLM 引擎上的优化为例，RunInfra 推荐 L40S GPU 作为最佳性价比选择。优化后，p95 延迟从 184ms 降至 38ms（降低 79%），首 token 时间从 120ms 降至 22ms（降低 82%），吞吐量从 45 tok/s 提升至 142 tok/s（提升 216%），显存占用从 28.4 GB 降至 12.1 GB（降低 57%），每百万 token 成本从 $0.42 降至 $0.12（降低 71%）。

部署方面，用户可以选择由 RunInfra 托管（按 token 付费），也可以导出堆栈到自己的 RunPod、Modal 或本地硬件。平台强调数据隐私和控制权，支持端到端加密、隔离的 GPU 基础设施以及零数据保留。RunInfra 已通过 SOC 2 Type II 认证。

RunInfra 支持广泛的模型生态系统，涵盖 LLM、ASR、图像、视频、嵌入、分类、TTS、重排序等多种任务。支持的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。凭借其自动化的优化 pipelines 和灵活的部署选项，RunInfra 为 AI 工程师提供了一种高效且可重复的生产级推理部署方案。