AI News HubLIVE
站内改写2 分鐘閱讀

多媒體積木塊:用Hugging Face Spaces構建3D巴黎畫廊

作者透過一個編碼智慧體,利用兩個Hugging Face Space(影像生成和3D高斯潑濺重建),僅透過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需影像生成器或3D工具,智慧體透過每個Space的agents.md檔案自動呼叫API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可呼叫的獨立元件,由智慧體靈活組合,大幅降低整合門檻。

近日,Hugging Face社群成員Mishig Davaadorj釋出了一篇引人注目的文章,展示了一個編碼智慧體如何僅透過呼叫兩個Hugging Face Spaces,就自動構建出一個精美的3D巴黎紀念碑展示網站。整個過程無需開啟影像生成器或3D重建工具:智慧體直接呼叫Spaces的API,生成影像並重建為3D高斯潑濺,最終整合到一個帶有旋轉瀏覽功能的Three.js檢視器中。

這一成果的背後是所謂的“積木塊經濟”理念。正如Mitchell Hashimoto所指出的,現代軟體開發的最佳路徑不再是構建封閉的單體,而是利用小型、文件完備的元件,讓AI(尤其是智慧體)來拼接。在多媒體AI領域,模型本身的使用難度已大大降低,真正的瓶頸在於整合:SDK、權重、GPU、輸入格式、輪詢等。而當每個模型都成為一個文件清晰、可直接呼叫的“積木塊”時,智慧體就能像拼接npm包一樣將它們組合起來。

Hugging Face Spaces正是這樣的積木塊。Hub上數千個最先進的模型大多以互動式Space形式部署,而每個Gradio Space現在都附帶一個agents.md檔案,其中明確說明了API schema、呼叫端點、輪詢方法、檔案上傳方式及認證提示。智慧體讀取該檔案後,即可端到端驅動Space,無需客戶端庫或硬編碼整合。更關鍵的是,多個Space可以鏈式呼叫:一個Space的輸出成為下一個的輸入。

在具體示例中,智慧體鏈式呼叫了兩個Space:首先,一個影像生成Space將每個紀念碑轉換為乾淨、深色背景的“標本”照片;然後,VAST-AI/TripoSplat Space將單張影像重建為3D高斯潑濺(.ply檔案)。智慧體還自動處理了座標調整(將Y軸朝下的輸出翻轉)、自動構圖、檔案壓縮(.ply轉.ksplat,體積縮小約3倍),並構建了一個支援滑鼠拖拽旋轉、滾輪切換的Three.js前端。人類唯一需要做的就是提供審美層面的反饋,如“放大一些”“替換更好的雕塑”等。

這一案例的重要意義在於:不同組織開發的SOTA模型變得可組合,且無需編寫整合程式碼。Hub上的開源模型目錄成為了一座可呼叫的多媒體原語庫。智慧體傾向於選擇那些文件完善、易於呼叫的元件,這一動態與開源庫的生態類似。過去,“將提示詞轉化為旋轉的3D紀念碑”是一個專案,而現在它只是一個流水線中的一步。

如果你想親自嘗試,只需將任意Space的agents.md連結貼上到你的編碼智慧體(如Claude Code)中,設定HF_TOKEN,然後讓它去構建任何東西。正如文章所說:積木塊就在Hub上,智慧體早已知道如何拼接。