從HuggingFace部署並推理任何模型
學習如何在一個會話中使用Goose和Together的專用容器推理部署任何HuggingFace模型。跳過複雜設定——一個提示就能讓你的模型在釋出當天在生產級GPU環境中執行。
文章情報
要點
- 使用Goose和Together的專用容器推理,開發者可以零延遲部署新發布的模型。
- 作者在Netflix釋出void-model當天成功部署並執行。
- 整個過程只需三步:安裝技能、執行一個提示、等待代理完成配置。
- Together的DCI提供私有GPU環境,按需付費,快速實驗。
為什麼重要
這條新聞值得關注,因為使用Goose和Together的專用容器推理,開發者可以零延遲部署新發布的模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
代理工具正在改變開發者處理複雜任務的方式。過去,容器化、推理伺服器配置和模型執行環境設定往往需要深厚的專業知識,或者耗費數小時自學。如今,透過代理,你只需描述目標,它就能填補中間的知識空白。
Netflix近期在HuggingFace上釋出了void-model。該模型可以從影片中移除物體及其所有場景互動,包括陰影、反射,甚至物理互動。作者Blaine Kasten當天就嘗試部署這一模型。按照以往經驗,從發現模型到實際執行,通常會有一兩天的延遲。但這一次,延遲幾乎為零。
藉助Goose(一個CLI代理執行器)和Together的專用容器技能,Blaine透過一個會話就完成了部署。整個過程只有一個提示:“I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model”。
具體步驟如下:首先安裝Together專用容器技能(npx skills add togethercomputer/skills),然後啟動Goose會話並輸入上述提示。代理自動從HuggingFace拉取模型詳情,確定正確的推理伺服器配置,生成容器配置檔案,併產出一個完整的可執行設定。最終結果是一個任何人都能使用的GitHub倉庫(blainekasten/together-void-model-container)。
部署完成後,即可透過Together CLI測試推理。例如,向void-model提交影片,它會返回一個請求ID,並在推理完成後輸出託管影片的URL,可透過cURL下載。
Together的專用容器推理(DCI)是實現這一流程的關鍵。DCI為使用者提供私有的GPU環境,由Together完全管理。使用者可以執行任何模型,無需配置自己的叢集或等待供應商支援。按使用量付費的計費模式也降低了實驗門檻。
對於希望快速行動、嘗試最新模型的團隊來說,DCI提供了一種靈活、高效的解決方案。將模型從HuggingFace部署到生產級環境,只需一個代理命令。