2026-06-09站内改写2 分鐘閱讀更新: 2026-06-09

多媒體積木塊：用Hugging Face Spaces構建3D巴黎畫廊

作者透過一個編碼智慧體，利用兩個Hugging Face Space（影像生成和3D高斯潑濺重建），僅透過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需影像生成器或3D工具，智慧體透過每個Space的agents.md檔案自動呼叫API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可呼叫的獨立元件，由智慧體靈活組合，大幅降低整合門檻。

來源Hugging Face Blog

近日，Hugging Face社群成員Mishig Davaadorj釋出了一篇引人注目的文章，展示了一個編碼智慧體如何僅透過呼叫兩個Hugging Face Spaces，就自動構建出一個精美的3D巴黎紀念碑展示網站。整個過程無需開啟影像生成器或3D重建工具：智慧體直接呼叫Spaces的API，生成影像並重建為3D高斯潑濺，最終整合到一個帶有旋轉瀏覽功能的Three.js檢視器中。

這一成果的背後是所謂的“積木塊經濟”理念。正如Mitchell Hashimoto所指出的，現代軟體開發的最佳路徑不再是構建封閉的單體，而是利用小型、文件完備的元件，讓AI（尤其是智慧體）來拼接。在多媒體AI領域，模型本身的使用難度已大大降低，真正的瓶頸在於整合：SDK、權重、GPU、輸入格式、輪詢等。而當每個模型都成為一個文件清晰、可直接呼叫的“積木塊”時，智慧體就能像拼接npm包一樣將它們組合起來。

Hugging Face Spaces正是這樣的積木塊。Hub上數千個最先進的模型大多以互動式Space形式部署，而每個Gradio Space現在都附帶一個agents.md檔案，其中明確說明了API schema、呼叫端點、輪詢方法、檔案上傳方式及認證提示。智慧體讀取該檔案後，即可端到端驅動Space，無需客戶端庫或硬編碼整合。更關鍵的是，多個Space可以鏈式呼叫：一個Space的輸出成為下一個的輸入。

在具體示例中，智慧體鏈式呼叫了兩個Space：首先，一個影像生成Space將每個紀念碑轉換為乾淨、深色背景的“標本”照片；然後，VAST-AI/TripoSplat Space將單張影像重建為3D高斯潑濺（.ply檔案）。智慧體還自動處理了座標調整（將Y軸朝下的輸出翻轉）、自動構圖、檔案壓縮（.ply轉.ksplat，體積縮小約3倍），並構建了一個支援滑鼠拖拽旋轉、滾輪切換的Three.js前端。人類唯一需要做的就是提供審美層面的反饋，如“放大一些”“替換更好的雕塑”等。

這一案例的重要意義在於：不同組織開發的SOTA模型變得可組合，且無需編寫整合程式碼。Hub上的開源模型目錄成為了一座可呼叫的多媒體原語庫。智慧體傾向於選擇那些文件完善、易於呼叫的元件，這一動態與開源庫的生態類似。過去，“將提示詞轉化為旋轉的3D紀念碑”是一個專案，而現在它只是一個流水線中的一步。

如果你想親自嘗試，只需將任意Space的agents.md連結貼上到你的編碼智慧體（如Claude Code）中，設定HF_TOKEN，然後讓它去構建任何東西。正如文章所說：積木塊就在Hub上，智慧體早已知道如何拼接。