2026-06-09站内改写2 分钟阅读更新: 2026-06-09

多媒体积木块：用Hugging Face Spaces构建3D巴黎画廊

作者通过一个编码智能体，利用两个Hugging Face Space（图像生成和3D高斯泼溅重建），仅通过文本提示就构建了一个展示巴黎纪念碑的3D网站。整个过程无需图像生成器或3D工具，智能体通过每个Space的agents.md文件自动调用API并拼接结果。文章阐述了多媒体AI领域的“积木经济”趋势——将模型作为可调用的独立组件，由智能体灵活组合，大幅降低集成门槛。

来源Hugging Face Blog

近日，Hugging Face社区成员Mishig Davaadorj发布了一篇引人注目的文章，展示了一个编码智能体如何仅通过调用两个Hugging Face Spaces，就自动构建出一个精美的3D巴黎纪念碑展示网站。整个过程无需打开图像生成器或3D重建工具：智能体直接调用Spaces的API，生成图像并重建为3D高斯泼溅，最终整合到一个带有旋转浏览功能的Three.js查看器中。

这一成果的背后是所谓的“积木块经济”理念。正如Mitchell Hashimoto所指出的，现代软件开发的最佳路径不再是构建封闭的单体，而是利用小型、文档完备的组件，让AI（尤其是智能体）来拼接。在多媒体AI领域，模型本身的使用难度已大大降低，真正的瓶颈在于集成：SDK、权重、GPU、输入格式、轮询等。而当每个模型都成为一个文档清晰、可直接调用的“积木块”时，智能体就能像拼接npm包一样将它们组合起来。

Hugging Face Spaces正是这样的积木块。Hub上数千个最先进的模型大多以交互式Space形式部署，而每个Gradio Space现在都附带一个agents.md文件，其中明确说明了API schema、调用端点、轮询方法、文件上传方式及认证提示。智能体读取该文件后，即可端到端驱动Space，无需客户端库或硬编码集成。更关键的是，多个Space可以链式调用：一个Space的输出成为下一个的输入。

在具体示例中，智能体链式调用了两个Space：首先，一个图像生成Space将每个纪念碑转换为干净、深色背景的“标本”照片；然后，VAST-AI/TripoSplat Space将单张图像重建为3D高斯泼溅（.ply文件）。智能体还自动处理了坐标调整（将Y轴朝下的输出翻转）、自动构图、文件压缩（.ply转.ksplat，体积缩小约3倍），并构建了一个支持鼠标拖拽旋转、滚轮切换的Three.js前端。人类唯一需要做的就是提供审美层面的反馈，如“放大一些”“替换更好的雕塑”等。

这一案例的重要意义在于：不同组织开发的SOTA模型变得可组合，且无需编写集成代码。Hub上的开源模型目录成为了一座可调用的多媒体原语库。智能体倾向于选择那些文档完善、易于调用的组件，这一动态与开源库的生态类似。过去，“将提示词转化为旋转的3D纪念碑”是一个项目，而现在它只是一个流水线中的一步。

如果你想亲自尝试，只需将任意Space的agents.md链接粘贴到你的编码智能体（如Claude Code）中，设置HF_TOKEN，然后让它去构建任何东西。正如文章所说：积木块就在Hub上，智能体早已知道如何拼接。