2026-05-08站内改写

从HuggingFace部署并推理任何模型

学习如何在一个会话中使用Goose和Together的专用容器推理部署任何HuggingFace模型。跳过复杂设置——一个提示就能让你的模型在发布当天在生产级GPU环境中运行。

文章情报

工程师进阶

要点

使用Goose和Together的专用容器推理，开发者可以零延迟部署新发布的模型。
作者在Netflix发布void-model当天成功部署并运行。
整个过程只需三步：安装技能、运行一个提示、等待代理完成配置。
Together的DCI提供私有GPU环境，按需付费，快速实验。

为什么重要

这条新闻值得关注，因为使用Goose和Together的专用容器推理，开发者可以零延迟部署新发布的模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

代理工具正在改变开发者处理复杂任务的方式。过去，容器化、推理服务器配置和模型运行环境设置往往需要深厚的专业知识，或者耗费数小时自学。如今，通过代理，你只需描述目标，它就能填补中间的知识空白。

Netflix近期在HuggingFace上发布了void-model。该模型可以从视频中移除物体及其所有场景交互，包括阴影、反射，甚至物理互动。作者Blaine Kasten当天就尝试部署这一模型。按照以往经验，从发现模型到实际运行，通常会有一两天的延迟。但这一次，延迟几乎为零。

借助Goose（一个CLI代理运行器）和Together的专用容器技能，Blaine通过一个会话就完成了部署。整个过程只有一个提示：“I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model”。

具体步骤如下：首先安装Together专用容器技能（npx skills add togethercomputer/skills），然后启动Goose会话并输入上述提示。代理自动从HuggingFace拉取模型详情，确定正确的推理服务器配置，生成容器配置文件，并产出一个完整的可运行设置。最终结果是一个任何人都能使用的GitHub仓库（blainekasten/together-void-model-container）。

部署完成后，即可通过Together CLI测试推理。例如，向void-model提交视频，它会返回一个请求ID，并在推理完成后输出托管视频的URL，可通过cURL下载。

Together的专用容器推理（DCI）是实现这一流程的关键。DCI为用户提供私有的GPU环境，由Together完全管理。用户可以运行任何模型，无需配置自己的集群或等待供应商支持。按使用量付费的计费模式也降低了实验门槛。

对于希望快速行动、尝试最新模型的团队来说，DCI提供了一种灵活、高效的解决方案。将模型从HuggingFace部署到生产级环境，只需一个代理命令。