2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

多媒體積木塊：用Hugging Face Spaces構建3D巴黎畫廊

作者通過一個編碼智能體，利用兩個Hugging Face Space（圖像生成和3D高斯潑濺重建），僅通過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需圖像生成器或3D工具，智能體通過每個Space的agents.md文件自動調用API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可調用的獨立組件，由智能體靈活組合，大幅降低集成門檻。

來源Hugging Face Blog

近日，Hugging Face社區成員Mishig Davaadorj發佈了一篇引人注目的文章，展示了一個編碼智能體如何僅通過調用兩個Hugging Face Spaces，就自動構建出一個精美的3D巴黎紀念碑展示網站。整個過程無需打開圖像生成器或3D重建工具：智能體直接調用Spaces的API，生成圖像並重建為3D高斯潑濺，最終整合到一個帶有旋轉瀏覽功能的Three.js查看器中。

這一成果的背後是所謂的“積木塊經濟”理念。正如Mitchell Hashimoto所指出的，現代軟件開發的最佳路徑不再是構建封閉的單體，而是利用小型、文檔完備的組件，讓AI（尤其是智能體）來拼接。在多媒體AI領域，模型本身的使用難度已大大降低，真正的瓶頸在於集成：SDK、權重、GPU、輸入格式、輪詢等。而當每個模型都成為一個文檔清晰、可直接調用的“積木塊”時，智能體就能像拼接npm包一樣將它們組合起來。

Hugging Face Spaces正是這樣的積木塊。Hub上數千個最先進的模型大多以交互式Space形式部署，而每個Gradio Space現在都附帶一個agents.md文件，其中明確説明了API schema、調用端點、輪詢方法、文件上傳方式及認證提示。智能體讀取該文件後，即可端到端驅動Space，無需客户端庫或硬編碼集成。更關鍵的是，多個Space可以鏈式調用：一個Space的輸出成為下一個的輸入。

在具體示例中，智能體鏈式調用了兩個Space：首先，一個圖像生成Space將每個紀念碑轉換為乾淨、深色背景的“標本”照片；然後，VAST-AI/TripoSplat Space將單張圖像重建為3D高斯潑濺（.ply文件）。智能體還自動處理了座標調整（將Y軸朝下的輸出翻轉）、自動構圖、文件壓縮（.ply轉.ksplat，體積縮小約3倍），並構建了一個支持鼠標拖拽旋轉、滾輪切換的Three.js前端。人類唯一需要做的就是提供審美層面的反饋，如“放大一些”“替換更好的雕塑”等。

這一案例的重要意義在於：不同組織開發的SOTA模型變得可組合，且無需編寫集成代碼。Hub上的開源模型目錄成為了一座可調用的多媒體原語庫。智能體傾向於選擇那些文檔完善、易於調用的組件，這一動態與開源庫的生態類似。過去，“將提示詞轉化為旋轉的3D紀念碑”是一個項目，而現在它只是一個流水線中的一步。

如果你想親自嘗試，只需將任意Space的agents.md鏈接粘貼到你的編碼智能體（如Claude Code）中，設置HF_TOKEN，然後讓它去構建任何東西。正如文章所説：積木塊就在Hub上，智能體早已知道如何拼接。