Show HN:Imagent – エージェントによる画像/動画/音声生成
Imagentは、画像、動画、音声の生成機能をAIエージェントのワークフローに統合するオープンソースツールです。統一されたCLIインターフェースを提供し、複数のAIプロバイダー(OpenAI、Google、ElevenLabsなど)をサポートし、生成されたアセットをローカルライブラリで管理して再利用可能にします。
Imagentは、現在のAIエージェントの一般的な制限、すなわちコードの推論や記述はできるが画像、動画、音声を生成できないという問題を解決するオープンソースプロジェクトです。使い捨てのスクリプトは特定のプロバイダーにロックされ、完了後にアセットが失われます。Imagentは以下の3つの機能でこれを解決します。
まず、生成機能をエージェントのネイティブスキルとして提供します。バンドルされたスキルにより、互換性のあるエージェントはCLIを呼び出して画像、動画、音声を生成し、ワークフローの一部として利用できます。
次に、統一インターフェースにより複数のプロバイダーとモデルをサポートします。OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus(火山引擎 Seedream/Seedance)、xAI Grok、MiniMax TTS、ElevenLabs TTSなどが含まれます。ユーザーやエージェントはプロンプトやパラメーターを変更せずにプロバイダーを切り替えられます。
第三に、生成されたアセットは管理されたローカルライブラリに保存されます。キャラクター、オブジェクト、背景、スタイル、参照などを含み、プロジェクト間でキュレーション、検索、再利用できます。
クイックスタート:CLI(npm install -g @imagent/cli)またはデスクトップアプリ(macOS/Windows)をインストール。デスクトップ版は未署名のため、macOSではxattr -cr Imagent.appで検疫を解除、WindowsではSmartScreen警告を回避してください。使用例:imagent image generate "minimal product photo of a ceramic mug"。
エージェントスキル統合:リポジトリのskills/imagentにあるスキルをインストール可能。インストール後、エージェントはimagent doctorを実行して共有ギャラリーとプロバイダー設定を利用できます。
典型的なワークフロー:コーディングエージェントにビジュアルおよびオーディオアセット生成能力を付与、プロバイダー間の切り替え、再利用可能なライブラリの構築、生成物のレビューなど。
プロジェクト構造はapps(デスクトップ、CLI)、packages(コア、プロバイダー、永続化、設定、IPC、UI)で構成。Imagentは初期段階であり、データ構造や機能は変更される可能性があります。テレメトリ、自動更新、クラウド同期、アカウントシステムは含まれず、デスクトップパッケージは未署名です。
ライセンスはApache License 2.0で、コントリビューションは同ライセンスで提供されます。