2026-06-26 08:00 UTC+8站內改寫2 分鐘閱讀

一行命令在 HF Jobs 上執行 vLLM 伺服器

本文介紹如何透過一行命令在 Hugging Face 基礎設施上快速啟動一個私有、相容 OpenAI 的 LLM 端點，無需配置伺服器或 Kubernetes，按秒計費。涵蓋從啟動、查詢、清理到擴充套件為大模型、建立聊天 UI、SSH 除錯及作為編碼代理後端的完整流程，並與 Inference Endpoints 進行比較。

來源Hugging Face Blog

文章情報

工程師進階

要點

使用 hf jobs run 命令結合 vLLM Docker 映象，透過 --expose 8000 暴露埠，即可在 HF Jobs 上執行 vLLM 伺服器。
端點透過 Hugging Face token 進行認證，僅限有讀取許可權的使用者訪問，支援使用 curl 或 OpenAI Python 客戶端查詢。
支援擴充套件到更大模型（如 Qwen3.5-122B），透過選擇更強硬體和 tensor-parallel-size 引數實現。
提供了進一步的使用場景：Gradio 聊天介面、SSH 進入容器除錯、以及作為 Pi 編碼代理的後端。

為什麼重要

這條新聞值得關注，因為使用 hf jobs run 命令結合 vLLM Docker 映象，透過 --expose 8000 暴露埠，即可在 HF Jobs 上執行 vLLM 伺服器。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Hugging Face 近期推出了一項新功能：使用者可以透過單個命令在 HF Jobs 上執行 vLLM 伺服器，從而快速搭建一個私有、相容 OpenAI API 的 LLM 端點。整個過程無需手動配置伺服器或 Kubernetes 叢集，且按使用時長（每秒）計費。一旦伺服器啟動，使用者可以從本地筆記本、遠端筆記本或任何其他環境透過 API 進行查詢。

要使用該功能，使用者需要具備付款方式或預付費餘額，並安裝 huggingface_hub >= 1.20.0 版本，同時透過 hf auth login 登入。啟動伺服器的命令格式為：hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。該命令會執行官方 vLLM 映象，分配指定 GPU（如 a10g-large），暴露埠 8000，並設定超時時間。執行後會返回一個唯一的 Job ID 和可訪問的 URL，格式為 https://<JOB_ID>--8000.hf.jobs。

查詢端點時，每個請求都需要攜帶 Hugging Face token 作為 Bearer token。最簡單的測試方式是使用 curl 命令：curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。Python 使用者則可藉助 OpenAI 客戶端庫，將 base_url 設為上述 URL，api_key 設為 token。注意，該端點並非公開可用，只有具備 Job 名稱空間讀取許可權的 token 才能訪問，因此適合私有使用。

由於 Job 按秒計費，使用者應在使用完畢後手動終止：hf jobs cancel <JOB_ID>。命令中的 --timeout 引數是安全網，但顯式取消更經濟。例如 a10g-large 的費率約為 1.50 美元/小時。

該方案同樣支援大規模模型。透過選擇更強大的硬體 flavors（如 h200x2）並設定 --tensor-parallel-size 引數，可以執行 122B 引數的 Qwen3.5 混合專家模型。對於大模型，建議調整 --max-model-len 和 --max-num-seqs 以避免記憶體不足。所有其他配置（公開 URL、OpenAI 客戶端、token 認證）保持不變。

除了 API 查詢，使用者還可以搭建 Gradio 聊天介面。在 vllm serve 命令中新增 --reasoning-parser deepseek_r1 後，執行一段 Python 程式碼即可啟動本地聊天視窗，支援流式顯示思考過程和最終回答。此外，透過 --ssh 標誌啟動 Job 並註冊 SSH 公鑰，使用者可以使用 hf jobs ssh <JOB_ID> 直接進入容器進行除錯。

該端點還可作為編碼代理的後端。例如，與 Pi 代理框架結合時，需在啟動命令中加入 --enable-auto-tool-choice 和 --tool-call-parser hermes，並在配置檔案中新增自定義 provider。之後即可在終端中透過 Pi 與模型互動，實現讀寫編輯和執行 bash 命令等功能。

最後，文章將 HF Jobs 與 HF Inference Endpoints 進行了對比：HF Jobs 提供最大靈活性和控制權，適合實驗和一次性任務；而 Inference Endpoints 更適合生產環境，提供更精細的訪問控制和縮放到零功能。使用者可根據需求選擇合適的工具。