2026-06-26 09:00 UTC+9サイト内リライト2 分で読了

1つのコマンドでHF Jobs上にvLLMサーバーを実行

Hugging Faceのインフラ上で、サーバーのプロビジョニングやKubernetesを必要とせず、1つのコマンドでプライベートなOpenAI互換のLLMエンドポイントを起動できます。秒単位の課金です。起動、クエリ、クリーンアップ、大規模モデルへの拡張、チャットUIの作成、SSHデバッグ、コーディングエージェントのバックエンドとしての利用まで、完全なフローをカバーし、Inference Endpointsとの比較も行います。

ソースHugging Face Blog

記事インテリジェンス

エンジニア上級

要点

hf jobs run コマンドとvLLM Dockerイメージ、--expose 8000 オプションを使用して、HF Jobs上でvLLMサーバーを実行します。
エンドポイントはHugging Faceトークンで認証され、ジョブの名前空間への読み取り権限が必要です。curlやOpenAI Pythonクライアントでクエリ可能です。
より強力なハードウェアとtensor-parallel-sizeパラメータを設定することで、大規模モデル（例：Qwen3.5-122B）にスケールアップできます。
さらに、Gradioチャットインターフェース、コンテナへのSSHアクセス、Piコーディングエージェントのバックエンドとしての利用が可能です。

重要な理由

このニュースが重要なのは、hf jobs run コマンドとvLLM Dockerイメージ、--expose 8000 オプションを使用して、HF Jobs上でvLLMサーバーを実行しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Hugging Faceは、HF Jobs上でvLLMサーバーを1つのコマンドで実行できる新機能を発表しました。これにより、OpenAI API互換のプライベートLLMエンドポイントを、サーバーのプロビジョニングやKubernetesを必要とせず、秒単位の課金で迅速に立ち上げられます。サーバーが起動すれば、ローカルノートブック、リモートノートブック、または他の任意の環境からAPI経由でクエリできます。

この機能を利用するには、支払い方法またはプリペイド残高が必要であり、huggingface_hub >= 1.20.0 をインストールし、hf auth login でログインしておく必要があります。サーバー起動コマンドの例は次のとおりです：hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。このコマンドは、公式vLLMイメージを実行し、指定されたGPU（例：a10g-large）を割り当て、ポート8000を公開し、タイムアウトを設定します。実行後、一意のジョブIDとアクセス可能なURL（https://<JOB_ID>--8000.hf.jobs 形式）が返されます。

エンドポイントにクエリを送信するには、各リクエストにHugging FaceトークンをBearerトークンとして含める必要があります。簡単なテスト方法はcurlを使用することです：curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。PythonユーザーはOpenAIクライアントライブラリを使用し、base_urlに上記のURL、api_keyにトークンを設定します。このエンドポイントは公開されておらず、ジョブの名前空間への読み取り権限を持つトークンのみがアクセスできるため、プライベートな使用に適しています。

ジョブは秒単位で課金されるため、使用後は手動で停止する必要があります：hf jobs cancel <JOB_ID>。コマンドの --timeout パラメータはセーフティネットですが、明示的にキャンセルする方が経済的です。例えば、a10g-large のレートは約1.50ドル/時間です。

このソリューションは大規模モデルもサポートしています。より強力なハードウェアフレーバー（例：h200x2）を選択し、--tensor-parallel-size パラメータを設定することで、122BパラメータのQwen3.5混合エキスパートモデルを実行できます。大規模モデルでは、メモリ不足を避けるために --max-model-len と --max-num-seqs を調整することをお勧めします。その他の設定（公開URL、OpenAIクライアント、トークン認証）は変わりません。

APIクエリに加えて、ユーザーはGradioチャットインターフェースを構築することもできます。vllm serve コマンドに --reasoning-parser deepseek_r1 を追加した後、Pythonコードを実行してローカルチャットウィンドウを起動し、思考プロセスと最終回答をストリーミング表示できます。また、--ssh フラグを使用してジョブを起動し、SSH公開鍵を登録しておくと、hf jobs ssh <JOB_ID> でコンテナに直接入りデバッグできます。

このエンドポイントはコーディングエージェントのバックエンドとしても利用できます。例えば、Piエージェントフレームワークと組み合わせる場合、起動コマンドに --enable-auto-tool-choice と --tool-call-parser hermes を追加し、設定ファイルにカスタムプロバイダーを記述します。その後、ターミナルでPiを通じてモデルと対話し、読み取り、書き込み、編集、bashコマンドの実行などが可能になります。

最後に、この記事ではHF JobsとHF Inference Endpointsの比較を行っています。HF Jobsは最大の柔軟性と制御を提供し、実験や単発的なタスクに適しています。一方、Inference Endpointsは本番環境向けで、より細かいアクセス制御とスケール・トゥ・ゼロ機能を提供します。ユーザーはニーズに応じて適切なツールを選択できます。