一行命令在 HF Jobs 上運行 vLLM 服務器
本文介紹如何通過一行命令在 Hugging Face 基礎設施上快速啓動一個私有、兼容 OpenAI 的 LLM 端點,無需配置服務器或 Kubernetes,按秒計費。涵蓋從啓動、查詢、清理到擴展為大模型、創建聊天 UI、SSH 調試及作為編碼代理後端的完整流程,並與 Inference Endpoints 進行比較。
Hugging Face 近期推出了一項新功能:用户可以通過單個命令在 HF Jobs 上運行 vLLM 服務器,從而快速搭建一個私有、兼容 OpenAI API 的 LLM 端點。整個過程無需手動配置服務器或 Kubernetes 集羣,且按使用時長(每秒)計費。一旦服務器啓動,用户可以從本地筆記本、遠程筆記本或任何其他環境通過 API 進行查詢。
要使用該功能,用户需要具備付款方式或預付費餘額,並安裝 huggingface_hub >= 1.20.0 版本,同時通過 hf auth login 登錄。啓動服務器的命令格式為:hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。該命令會運行官方 vLLM 鏡像,分配指定 GPU(如 a10g-large),暴露端口 8000,並設置超時時間。執行後會返回一個唯一的 Job ID 和可訪問的 URL,格式為 https://<JOB_ID>--8000.hf.jobs。
查詢端點時,每個請求都需要攜帶 Hugging Face token 作為 Bearer token。最簡單的測試方式是使用 curl 命令:curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。Python 用户則可藉助 OpenAI 客户端庫,將 base_url 設為上述 URL,api_key 設為 token。注意,該端點並非公開可用,只有具備 Job 命名空間讀取權限的 token 才能訪問,因此適合私有使用。
由於 Job 按秒計費,用户應在使用完畢後手動終止:hf jobs cancel <JOB_ID>。命令中的 --timeout 參數是安全網,但顯式取消更經濟。例如 a10g-large 的費率約為 1.50 美元/小時。
該方案同樣支持大規模模型。通過選擇更強大的硬件 flavors(如 h200x2)並設置 --tensor-parallel-size 參數,可以運行 122B 參數的 Qwen3.5 混合專家模型。對於大模型,建議調整 --max-model-len 和 --max-num-seqs 以避免內存不足。所有其他配置(公開 URL、OpenAI 客户端、token 認證)保持不變。
除了 API 查詢,用户還可以搭建 Gradio 聊天界面。在 vllm serve 命令中添加 --reasoning-parser deepseek_r1 後,運行一段 Python 代碼即可啓動本地聊天窗口,支持流式顯示思考過程和最終回答。此外,通過 --ssh 標誌啓動 Job 並註冊 SSH 公鑰,用户可以使用 hf jobs ssh <JOB_ID> 直接進入容器進行調試。
該端點還可作為編碼代理的後端。例如,與 Pi 代理框架結合時,需在啓動命令中加入 --enable-auto-tool-choice 和 --tool-call-parser hermes,並在配置文件中添加自定義 provider。之後即可在終端中通過 Pi 與模型交互,實現讀寫編輯和執行 bash 命令等功能。
最後,文章將 HF Jobs 與 HF Inference Endpoints 進行了對比:HF Jobs 提供最大靈活性和控制權,適合實驗和一次性任務;而 Inference Endpoints 更適合生產環境,提供更精細的訪問控制和縮放到零功能。用户可根據需求選擇合適的工具。