AI News HubLIVE
站内改写2 分で読了

マルチメディアビルディングブロック:Hugging Face Spacesで3Dパリギャラリーを構築

コーディングエージェントが2つのHugging Face Space(画像生成と3Dガウシアンスプラット再構成)をagents.md経由で呼び出し、パリのモニュメントを展示する3Dウェブサイトを自動構築。画像生成ツールや3D再構築ツールを直接使うことなく、エージェントが各SpaceのAPIを連鎖させて結果を統合。本記事は、マルチメディアAIにおける「ビルディングブロック経済」の到来を示し、モデルを呼び出し可能な部品としてエージェントが自在に組み合わせることで、統合障壁を劇的に低減する可能性を強調している。

Hugging FaceコミュニティメンバーのMishig Davaadorjが、コーディングエージェントが2つのHugging Face Spacesを呼び出すだけで、パリのモニュメントを展示する美しい3Dウェブサイトを自動構築した事例を公開した。画像生成ツールや3D再構築ツールを直接操作することなく、エージェントは各SpaceのAPIを呼び出し、画像を生成して3Dガウシアンスプラットに再構築し、それらをThree.jsベースのビューアに統合した。

この成果の背景には「ビルディングブロック経済」という考え方がある。Mitchell Hashimotoが指摘するように、現代のソフトウェア開発で最も効果的な方法は、洗練されたモノリスではなく、小さくて文書化されたコンポーネントを、AI(特にエージェント)に組み立てさせることだ。マルチメディアAIの分野では、モデル自体の利用は容易になったが、統合(SDK、重み、GPU、入力形式、ポーリングなど)が障壁となっていた。各モデルが文書化された呼び出し可能なブロックになれば、エージェントはnpmパッケージを結合するのと同じようにそれらを接着できる。

Hugging Face Spacesはまさにそのようなブロックである。Hub上の数千の最先端モデルの多くはインタラクティブなSpaceとしてデプロイされており、各Gradio Spaceにはagents.mdファイルが付属している。このファイルには、APIスキーマ、呼び出しエンドポイント、ポーリング方法、ファイルアップロード方法、認証ヒントが平文で記載されており、エージェントはそれを読み取るだけでSpaceをエンドツーエンドで駆動できる。さらに重要なのは、Spaceを連鎖させられることだ。あるSpaceの出力を次のSpaceの入力として渡すことができる。

実際の例では、エージェントは2つのSpaceを連鎖させた。まず、画像生成Spaceが各モニュメントをクリーンな暗背景の「標本」画像に変換。次に、VAST-AI/TripoSplat Spaceが単一画像から3Dガウシアンスプラット(.plyファイル)を再構築した。エージェントはさらに、座標調整(Y-down出力を反転)、自動フレーミング、ファイル圧縮(.ply→.ksplat、約3分の1に削減)、Three.jsビューアの構築(スクロールで切り替え、ドラッグで回転)を自動実行した。人間が行ったのは、「ズームアウトして」「よりスプラッティングに適したオブジェクトに置き換えて」「トランジションが長すぎる」といった美的フィードバックのみだった。

この事例の重要性は、異なる組織のSOTAモデルが統合コードなしで構成可能であることを示した点にある。Hubのオープンウェイトカタログは、呼び出し可能なマルチメディアプリミティブのライブラリへと変貌しつつある。エージェントは文書化されアクセスしやすいものを好むため、agents.mdはSpaceを極めてアクセスしやすくする。これにより、エージェントは手動セットアップが必要なモデルよりもSpaceを選択するだろう。統合の障壁はほぼなくなり、「プロンプトを回転する3Dモニュメントに変える」という作業は、かつてはプロジェクトだったが、今ではパイプラインの一部にすぎない。

読者も、任意のSpaceのagents.mdリンクをコーディングエージェント(Claude Codeなど)に貼り付け、HF_TOKENを設定して、何かを作成するように依頼してみてほしい。ブロックはすでにHubにあり、エージェントは接着方法を知っている。