一行命令在 HF Jobs 上執行 vLLM 伺服器
本文介紹如何透過一行命令在 Hugging Face 基礎設施上快速啟動一個私有、相容 OpenAI 的 LLM 端點,無需配置伺服器或 Kubernetes,按秒計費。涵蓋從啟動、查詢、清理到擴充套件為大模型、建立聊天 UI、SSH 除錯及作為編碼代理後端的完整流程,並與 Inference Endpoints 進行比較。
Hugging Face 近期推出了一項新功能:使用者可以透過單個命令在 HF Jobs 上執行 vLLM 伺服器,從而快速搭建一個私有、相容 OpenAI API 的 LLM 端點。整個過程無需手動配置伺服器或 Kubernetes 叢集,且按使用時長(每秒)計費。一旦伺服器啟動,使用者可以從本地筆記本、遠端筆記本或任何其他環境透過 API 進行查詢。
要使用該功能,使用者需要具備付款方式或預付費餘額,並安裝 huggingface_hub >= 1.20.0 版本,同時透過 hf auth login 登入。啟動伺服器的命令格式為:hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。該命令會執行官方 vLLM 映象,分配指定 GPU(如 a10g-large),暴露埠 8000,並設定超時時間。執行後會返回一個唯一的 Job ID 和可訪問的 URL,格式為 https://<JOB_ID>--8000.hf.jobs。
查詢端點時,每個請求都需要攜帶 Hugging Face token 作為 Bearer token。最簡單的測試方式是使用 curl 命令:curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。Python 使用者則可藉助 OpenAI 客戶端庫,將 base_url 設為上述 URL,api_key 設為 token。注意,該端點並非公開可用,只有具備 Job 名稱空間讀取許可權的 token 才能訪問,因此適合私有使用。
由於 Job 按秒計費,使用者應在使用完畢後手動終止:hf jobs cancel <JOB_ID>。命令中的 --timeout 引數是安全網,但顯式取消更經濟。例如 a10g-large 的費率約為 1.50 美元/小時。
該方案同樣支援大規模模型。透過選擇更強大的硬體 flavors(如 h200x2)並設定 --tensor-parallel-size 引數,可以執行 122B 引數的 Qwen3.5 混合專家模型。對於大模型,建議調整 --max-model-len 和 --max-num-seqs 以避免記憶體不足。所有其他配置(公開 URL、OpenAI 客戶端、token 認證)保持不變。
除了 API 查詢,使用者還可以搭建 Gradio 聊天介面。在 vllm serve 命令中新增 --reasoning-parser deepseek_r1 後,執行一段 Python 程式碼即可啟動本地聊天視窗,支援流式顯示思考過程和最終回答。此外,透過 --ssh 標誌啟動 Job 並註冊 SSH 公鑰,使用者可以使用 hf jobs ssh <JOB_ID> 直接進入容器進行除錯。
該端點還可作為編碼代理的後端。例如,與 Pi 代理框架結合時,需在啟動命令中加入 --enable-auto-tool-choice 和 --tool-call-parser hermes,並在配置檔案中新增自定義 provider。之後即可在終端中透過 Pi 與模型互動,實現讀寫編輯和執行 bash 命令等功能。
最後,文章將 HF Jobs 與 HF Inference Endpoints 進行了對比:HF Jobs 提供最大靈活性和控制權,適合實驗和一次性任務;而 Inference Endpoints 更適合生產環境,提供更精細的訪問控制和縮放到零功能。使用者可根據需求選擇合適的工具。