RunInfra:あらゆるオープンモデルをカーネルレベルまで最適化、5分でデプロイ
RunInfraは、オープンモデルの推論を自動最適化するプラットフォームです。最適な推論エンジン、GPU、構成をベンチマークとチューニングで選定し、遅延・スループット・コストを大幅に改善したデプロイ可能なスタックを提供します。
RunInfraは、オープンモデルを本番環境向けに最適化するための推論プラットフォームです。Y Combinatorの支援を受けており、ユーザーが推論ワークロードを記述するだけで、最適なモデル、推論エンジン、GPUを自動的に選択し、チューニングして、すぐに実行可能なデプロイスタックを提供します。
サポートする推論エンジンはvLLM、SGLang、TensorRT-LLM、vLLM Omniなど多岐にわたり、GPUはNVIDIA L4、L40S、A100、H100、H200、B200などに対応。各構成に対してベンチマークを実行し、p95レイテンシー、スループット、VRAM使用量、コストを計測します。
最適化プロセスでは、AWQ int4量子化、FlashAttention v2、Continuous Batching、Paged KV Cache、CUDA Graph Capture、Speculative Decoding、Prefix Cachingなどの高度な技術を自動適用します。すべての設定は手動調整不要で、最終的にベンチマークレポート、最適化済みランタイム設定、Dockerfileやk8sマニフェストを含むデプロイメントキットが生成されます。
例として、Llama 3.1 8BモデルをvLLMでL40S GPU向けに最適化した結果、p95レイテンシーが184msから38ms(79%減)、ファーストトークン時間が120msから22ms(82%減)、スループットが45 tok/sから142 tok/s(216%増)、VRAM使用量が28.4GBから12.1GB(57%減)、コストが100万トークンあたり$0.42から$0.12(71%減)と大幅に改善されました。
デプロイ方法は、RunInfraが管理するエンドポイント(トークン従量課金)を利用するか、スタックをエクスポートして自身のRunPod、Modalアカウント、またはローカルハードウェアにデプロイできます。プラットフォームはエンドツーエンド暗号化、分離GPUインフラ、ゼロデータ保持を特徴とし、SOC 2 Type II認証を取得しています。
RunInfraはLlama 3.3、Whisper、Qwen2.5、DeepSeek-V3、Mistral、Gemma 2など幅広いモデルをサポートし、LLM、ASR、画像、動画、埋め込み、分類、TTS、リランキングなど多様なタスクに対応。自動化された最適化パイプラインと柔軟なデプロイオプションにより、AIエンジニアは再現可能な本番推論を効率的に実現できます。