2026-06-26 08:00 UTC+8站內改寫2 分鐘閱讀

一行命令在 HF Jobs 上運行 vLLM 服務器

本文介紹如何通過一行命令在 Hugging Face 基礎設施上快速啓動一個私有、兼容 OpenAI 的 LLM 端點，無需配置服務器或 Kubernetes，按秒計費。涵蓋從啓動、查詢、清理到擴展為大模型、創建聊天 UI、SSH 調試及作為編碼代理後端的完整流程，並與 Inference Endpoints 進行比較。

來源Hugging Face Blog

文章情報

工程師進階

要點

使用 hf jobs run 命令結合 vLLM Docker 鏡像，通過 --expose 8000 暴露端口，即可在 HF Jobs 上運行 vLLM 服務器。
端點通過 Hugging Face token 進行認證，僅限有讀取權限的用户訪問，支持使用 curl 或 OpenAI Python 客户端查詢。
支持擴展到更大模型（如 Qwen3.5-122B），通過選擇更強硬件和 tensor-parallel-size 參數實現。
提供了進一步的使用場景：Gradio 聊天界面、SSH 進入容器調試、以及作為 Pi 編碼代理的後端。

為甚麼重要

這條新聞值得關注，因為使用 hf jobs run 命令結合 vLLM Docker 鏡像，通過 --expose 8000 暴露端口，即可在 HF Jobs 上運行 vLLM 服務器。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Hugging Face 近期推出了一項新功能：用户可以通過單個命令在 HF Jobs 上運行 vLLM 服務器，從而快速搭建一個私有、兼容 OpenAI API 的 LLM 端點。整個過程無需手動配置服務器或 Kubernetes 集羣，且按使用時長（每秒）計費。一旦服務器啓動，用户可以從本地筆記本、遠程筆記本或任何其他環境通過 API 進行查詢。

要使用該功能，用户需要具備付款方式或預付費餘額，並安裝 huggingface_hub >= 1.20.0 版本，同時通過 hf auth login 登錄。啓動服務器的命令格式為：hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000。該命令會運行官方 vLLM 鏡像，分配指定 GPU（如 a10g-large），暴露端口 8000，並設置超時時間。執行後會返回一個唯一的 Job ID 和可訪問的 URL，格式為 https://<JOB_ID>--8000.hf.jobs。

查詢端點時，每個請求都需要攜帶 Hugging Face token 作為 Bearer token。最簡單的測試方式是使用 curl 命令：curl https://<JOB_ID>--8000.hf.jobs/v1/chat/completions -H "Authorization: Bearer $(hf auth token)" -H "Content-Type: application/json" -d '{...}'。Python 用户則可藉助 OpenAI 客户端庫，將 base_url 設為上述 URL，api_key 設為 token。注意，該端點並非公開可用，只有具備 Job 命名空間讀取權限的 token 才能訪問，因此適合私有使用。

由於 Job 按秒計費，用户應在使用完畢後手動終止：hf jobs cancel <JOB_ID>。命令中的 --timeout 參數是安全網，但顯式取消更經濟。例如 a10g-large 的費率約為 1.50 美元/小時。

該方案同樣支持大規模模型。通過選擇更強大的硬件 flavors（如 h200x2）並設置 --tensor-parallel-size 參數，可以運行 122B 參數的 Qwen3.5 混合專家模型。對於大模型，建議調整 --max-model-len 和 --max-num-seqs 以避免內存不足。所有其他配置（公開 URL、OpenAI 客户端、token 認證）保持不變。

除了 API 查詢，用户還可以搭建 Gradio 聊天界面。在 vllm serve 命令中添加 --reasoning-parser deepseek_r1 後，運行一段 Python 代碼即可啓動本地聊天窗口，支持流式顯示思考過程和最終回答。此外，通過 --ssh 標誌啓動 Job 並註冊 SSH 公鑰，用户可以使用 hf jobs ssh <JOB_ID> 直接進入容器進行調試。

該端點還可作為編碼代理的後端。例如，與 Pi 代理框架結合時，需在啓動命令中加入 --enable-auto-tool-choice 和 --tool-call-parser hermes，並在配置文件中添加自定義 provider。之後即可在終端中通過 Pi 與模型交互，實現讀寫編輯和執行 bash 命令等功能。

最後，文章將 HF Jobs 與 HF Inference Endpoints 進行了對比：HF Jobs 提供最大靈活性和控制權，適合實驗和一次性任務；而 Inference Endpoints 更適合生產環境，提供更精細的訪問控制和縮放到零功能。用户可根據需求選擇合適的工具。