AI News HubLIVE
站内改写1 分钟阅读

RunInfra:将任何开放模型优化至内核,5分钟部署

RunInfra是一个AI推理优化平台,可自动为开放模型选择最佳的推理引擎、GPU和配置,并提供可部署的堆栈。它通过基准测试和调优,大幅降低延迟、提高吞吐量并降低成本。

来源Hacker News AI作者: OsamaJaber

RunInfra 是一个专为开放模型生产部署设计的推理优化平台,它能够自动为任何开放模型选择最佳的推理引擎、GPU 和配置,并提供可直接运行的部署堆栈。该平台由 Y Combinator 支持,旨在简化 AI 模型的生产化流程。

用户只需描述推理工作负载,RunInfra 便会自动评估兼容的模型和引擎。它支持 vLLM、SGLang、TensorRT-LLM 等多种推理引擎,并针对 NVIDIA 的多种 GPU(如 L4、L40S、A100、H100、H200、B200)进行优化。平台会运行基准测试,比较不同配置下的延迟、吞吐量、显存占用和成本,并自动选择最优组合。

在优化过程中,RunInfra 应用一系列高级技术,包括 AWQ int4 量化、FlashAttention v2 内核、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存等。这些优化完全自动化,无需用户手动配置。最终输出包括详细的基准测试报告、优化后的运行时配置以及可导出的部署套件(Dockerfile、serve.py 等)。

以 Llama 3.1 8B 模型在 vLLM 引擎上的优化为例,RunInfra 推荐 L40S GPU 作为最佳性价比选择。优化后,p95 延迟从 184ms 降至 38ms(降低 79%),首 token 时间从 120ms 降至 22ms(降低 82%),吞吐量从 45 tok/s 提升至 142 tok/s(提升 216%),显存占用从 28.4 GB 降至 12.1 GB(降低 57%),每百万 token 成本从 $0.42 降至 $0.12(降低 71%)。

部署方面,用户可以选择由 RunInfra 托管(按 token 付费),也可以导出堆栈到自己的 RunPod、Modal 或本地硬件。平台强调数据隐私和控制权,支持端到端加密、隔离的 GPU 基础设施以及零数据保留。RunInfra 已通过 SOC 2 Type II 认证。

RunInfra 支持广泛的模型生态系统,涵盖 LLM、ASR、图像、视频、嵌入、分类、TTS、重排序等多种任务。支持的模型包括 Llama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2 等。凭借其自动化的优化 pipelines 和灵活的部署选项,RunInfra 为 AI 工程师提供了一种高效且可重复的生产级推理部署方案。

RunInfra:将任何开放模型优化至内核,5分钟部署 | AI News Hub