AI News HubLIVE
サイト内リライト2 分で読了

1つのコマンドでHF Jobs上にvLLMサーバーを実行

Hugging Faceのインフラ上で、サーバーのプロビジョニングやKubernetesを必要とせず、1つのコマンドでプライベートなOpenAI互換のLLMエンドポイントを起動できます。秒単位の課金です。起動、クエリ、クリーンアップ、大規模モデルへの拡張、チャットUIの作成、SSHデバッグ、コーディングエージェントのバックエンドとしての利用まで、完全なフローをカバーし、Inference Endpointsとの比較も行います。

Hugging Faceは、HF Jobs上でvLLMサーバーを1つのコマンドで実行できる新機能を発表しました。これにより、OpenAI API互換のプライベートLLMエンドポイントを、サーバーのプロビジョニングやKubernetesを必要とせず、秒単位の課金で迅速に立ち上げられます。サーバーが起動すれば、ローカルノートブック、リモートノートブック、または他の任意の環境からAPI経由でクエリできます。

この機能を利用するには、支払い方法またはプリペイド残高が必要であり、huggingface_hub >= 1.20.0 をインストールし、hf auth login でログインしておく必要があります。サーバー起動コマンドの例は次のとおりです:hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。このコマンドは、公式vLLMイメージを実行し、指定されたGPU(例:a10g-large)を割り当て、ポート8000を公開し、タイムアウトを設定します。実行後、一意のジョブIDとアクセス可能なURL(https://<JOB_ID>--8000.hf.jobs 形式)が返されます。

エンドポイントにクエリを送信するには、各リクエストにHugging FaceトークンをBearerトークンとして含める必要があります。簡単なテスト方法はcurlを使用することです:curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。PythonユーザーはOpenAIクライアントライブラリを使用し、base_urlに上記のURL、api_keyにトークンを設定します。このエンドポイントは公開されておらず、ジョブの名前空間への読み取り権限を持つトークンのみがアクセスできるため、プライベートな使用に適しています。

ジョブは秒単位で課金されるため、使用後は手動で停止する必要があります:hf jobs cancel <JOB_ID>。コマンドの --timeout パラメータはセーフティネットですが、明示的にキャンセルする方が経済的です。例えば、a10g-large のレートは約1.50ドル/時間です。

このソリューションは大規模モデルもサポートしています。より強力なハードウェアフレーバー(例:h200x2)を選択し、--tensor-parallel-size パラメータを設定することで、122BパラメータのQwen3.5混合エキスパートモデルを実行できます。大規模モデルでは、メモリ不足を避けるために --max-model-len と --max-num-seqs を調整することをお勧めします。その他の設定(公開URL、OpenAIクライアント、トークン認証)は変わりません。

APIクエリに加えて、ユーザーはGradioチャットインターフェースを構築することもできます。vllm serve コマンドに --reasoning-parser deepseek_r1 を追加した後、Pythonコードを実行してローカルチャットウィンドウを起動し、思考プロセスと最終回答をストリーミング表示できます。また、--ssh フラグを使用してジョブを起動し、SSH公開鍵を登録しておくと、hf jobs ssh <JOB_ID> でコンテナに直接入りデバッグできます。

このエンドポイントはコーディングエージェントのバックエンドとしても利用できます。例えば、Piエージェントフレームワークと組み合わせる場合、起動コマンドに --enable-auto-tool-choice と --tool-call-parser hermes を追加し、設定ファイルにカスタムプロバイダーを記述します。その後、ターミナルでPiを通じてモデルと対話し、読み取り、書き込み、編集、bashコマンドの実行などが可能になります。

最後に、この記事ではHF JobsとHF Inference Endpointsの比較を行っています。HF Jobsは最大の柔軟性と制御を提供し、実験や単発的なタスクに適しています。一方、Inference Endpointsは本番環境向けで、より細かいアクセス制御とスケール・トゥ・ゼロ機能を提供します。ユーザーはニーズに応じて適切なツールを選択できます。