2026-07-01 08:48 UTC+9サイト内リライト2 分で読了更新: 2026-07-01 09:29 UTC+9

RunInfra：あらゆるオープンモデルをカーネルレベルまで最適化、5分でデプロイ

RunInfraは、オープンモデルの推論を自動最適化するプラットフォームです。最適な推論エンジン、GPU、構成をベンチマークとチューニングで選定し、遅延・スループット・コストを大幅に改善したデプロイ可能なスタックを提供します。

ソースHacker News AI著者: OsamaJaber

記事インテリジェンス

エンジニア上級

要点

RunInfraはvLLM、SGLang、TensorRT-LLMなどのエンジンに対応し、オープンモデルの推論最適化を自動化します。
モデル選択、量子化、カーネルチューニング、キャッシュ戦略からデプロイまでを一貫して実行。
Llama 3.1 8Bのデモでは、p95レイテンシーが79%削減、スループットが216%向上、コストが71%低減。
マネージドエンドポイントか、スタックをエクスポートして自身のインフラにデプロイするかを選択可能。

重要な理由

このニュースが重要なのは、RunInfraはvLLM、SGLang、TensorRT-LLMなどのエンジンに対応し、オープンモデルの推論最適化を自動化しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

RunInfraは、オープンモデルを本番環境向けに最適化するための推論プラットフォームです。Y Combinatorの支援を受けており、ユーザーが推論ワークロードを記述するだけで、最適なモデル、推論エンジン、GPUを自動的に選択し、チューニングして、すぐに実行可能なデプロイスタックを提供します。

サポートする推論エンジンはvLLM、SGLang、TensorRT-LLM、vLLM Omniなど多岐にわたり、GPUはNVIDIA L4、L40S、A100、H100、H200、B200などに対応。各構成に対してベンチマークを実行し、p95レイテンシー、スループット、VRAM使用量、コストを計測します。

最適化プロセスでは、AWQ int4量子化、FlashAttention v2、Continuous Batching、Paged KV Cache、CUDA Graph Capture、Speculative Decoding、Prefix Cachingなどの高度な技術を自動適用します。すべての設定は手動調整不要で、最終的にベンチマークレポート、最適化済みランタイム設定、Dockerfileやk8sマニフェストを含むデプロイメントキットが生成されます。

例として、Llama 3.1 8BモデルをvLLMでL40S GPU向けに最適化した結果、p95レイテンシーが184msから38ms（79%減）、ファーストトークン時間が120msから22ms（82%減）、スループットが45 tok/sから142 tok/s（216%増）、VRAM使用量が28.4GBから12.1GB（57%減）、コストが100万トークンあたり$0.42から$0.12（71%減）と大幅に改善されました。

デプロイ方法は、RunInfraが管理するエンドポイント（トークン従量課金）を利用するか、スタックをエクスポートして自身のRunPod、Modalアカウント、またはローカルハードウェアにデプロイできます。プラットフォームはエンドツーエンド暗号化、分離GPUインフラ、ゼロデータ保持を特徴とし、SOC 2 Type II認証を取得しています。

RunInfraはLlama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2など幅広いモデルをサポートし、LLM、ASR、画像、動画、埋め込み、分類、TTS、リランキングなど多様なタスクに対応。自動化された最適化パイプラインと柔軟なデプロイオプションにより、AIエンジニアは再現可能な本番推論を効率的に実現できます。