AI News HubLIVE
站内改写

从HuggingFace部署并推理任何模型

学习如何在一个会话中使用Goose和Together的专用容器推理部署任何HuggingFace模型。跳过复杂设置——一个提示就能让你的模型在发布当天在生产级GPU环境中运行。

文章情报

工程师进阶

要点

  • 使用Goose和Together的专用容器推理,开发者可以零延迟部署新发布的模型。
  • 作者在Netflix发布void-model当天成功部署并运行。
  • 整个过程只需三步:安装技能、运行一个提示、等待代理完成配置。
  • Together的DCI提供私有GPU环境,按需付费,快速实验。

为什么重要

这条新闻值得关注,因为使用Goose和Together的专用容器推理,开发者可以零延迟部署新发布的模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

代理工具正在改变开发者处理复杂任务的方式。过去,容器化、推理服务器配置和模型运行环境设置往往需要深厚的专业知识,或者耗费数小时自学。如今,通过代理,你只需描述目标,它就能填补中间的知识空白。

Netflix近期在HuggingFace上发布了void-model。该模型可以从视频中移除物体及其所有场景交互,包括阴影、反射,甚至物理互动。作者Blaine Kasten当天就尝试部署这一模型。按照以往经验,从发现模型到实际运行,通常会有一两天的延迟。但这一次,延迟几乎为零。

借助Goose(一个CLI代理运行器)和Together的专用容器技能,Blaine通过一个会话就完成了部署。整个过程只有一个提示:“I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model”。

具体步骤如下:首先安装Together专用容器技能(npx skills add togethercomputer/skills),然后启动Goose会话并输入上述提示。代理自动从HuggingFace拉取模型详情,确定正确的推理服务器配置,生成容器配置文件,并产出一个完整的可运行设置。最终结果是一个任何人都能使用的GitHub仓库(blainekasten/together-void-model-container)。

部署完成后,即可通过Together CLI测试推理。例如,向void-model提交视频,它会返回一个请求ID,并在推理完成后输出托管视频的URL,可通过cURL下载。

Together的专用容器推理(DCI)是实现这一流程的关键。DCI为用户提供私有的GPU环境,由Together完全管理。用户可以运行任何模型,无需配置自己的集群或等待供应商支持。按使用量付费的计费模式也降低了实验门槛。

对于希望快速行动、尝试最新模型的团队来说,DCI提供了一种灵活、高效的解决方案。将模型从HuggingFace部署到生产级环境,只需一个代理命令。