Show HN:Imagent – 智慧體驅動的影像/影片/語音生成
Imagent是一個將影像、影片和語音生成能力整合到AI代理工作流中的開源工具。它提供統一的CLI介面,支援多個AI提供商(如OpenAI、Google、ElevenLabs等),並管理生成的資產庫,方便複用。
Imagent是一個開源專案,旨在解決當前AI代理的一個常見侷限:大多數代理能夠推理和編寫程式碼,但無法生成影像、影片或音訊。臨時編寫的指令碼往往是一次性的、鎖定特定提供商,並且在完成後就會丟失所有生成的資產。Imagent透過三個核心功能解決了這個問題:
首先,它將生成能力作為代理的原生技能。透過內建的技能包,任何相容的代理都可以呼叫Imagent的CLI來生成影像、影片和語音,將其作為工作流中的一個自然步驟,無需為每個工具進行定製整合。
其次,它提供了統一的介面,支援多家提供商和模型。目前支援的提供商包括OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus(火山引擎Seedream/Seedance)、xAI Grok、MiniMax TTS和ElevenLabs TTS。使用者和代理可以在不重寫提示或引數的情況下,輕鬆切換提供商或模型。
第三,生成的資產具有永續性。每個生成的影像、影片、音訊片段以及可複用的角色、物體、背景、風格和參考素材,都會儲存在一個本地管理的庫中。使用者可以在不同專案中策劃、搜尋和重用這些輸出,而無需每次都重新生成。
快速開始:安裝CLI(npm install -g @imagent/cli)或下載桌面版(macOS或Windows)。桌面版尚未簽名,macOS需要移除隔離屬性(xattr -cr Imagent.app),Windows則需選擇“更多資訊→仍要執行”以繞過SmartScreen警告。使用示例:imagent image generate "minimal product photo of a ceramic mug"等。
代理技能整合:倉庫中包含一個立即可用的技能(skills/imagent),可安裝到任何相容的代理執行時。安裝後,代理可以執行imagent doctor來檢測是否使用共享本地庫和已配置的提供商。
典型工作流包括:賦予編碼或自動化代理在任務過程中生成視覺和音訊資產的能力;在不同的提供商和模型之間切換;建立可複用的角色、樣式和參考資產庫;回顧和整理代理生成的所有內容;以及透過共享本地工作區將終端自動化與桌面審查相結合。
專案結構清晰,包含apps(桌面應用和CLI)、packages(核心邏輯、提供商介面卡、持久化、配置、IPC通訊和UI元件)等。目前Imagent處於早期階段,資料結構、打包和部分功能集可能會持續演進。當前版本不包含遙測、自動更新、雲同步或賬戶系統。桌面包未經簽名,因此首次啟動時可能會觸發系統警告。
許可證為Apache License 2.0,貢獻者需同意其貢獻將以此許可證授權。