AI News HubLIVE
站內改寫2 分鐘閱讀

Show HN:Imagent – 智能體驅動的圖像/視頻/語音生成

Imagent是一個將圖像、視頻和語音生成能力集成到AI代理工作流中的開源工具。它提供統一的CLI接口,支持多個AI提供商(如OpenAI、Google、ElevenLabs等),並管理生成的資產庫,方便複用。

來源Hacker News AI作者: unliftedq

Imagent是一個開源項目,旨在解決當前AI代理的一個常見侷限:大多數代理能夠推理和編寫代碼,但無法生成圖像、視頻或音頻。臨時編寫的腳本往往是一次性的、鎖定特定提供商,並且在完成後就會丟失所有生成的資產。Imagent通過三個核心功能解決了這個問題:

首先,它將生成能力作為代理的原生技能。通過內置的技能包,任何兼容的代理都可以調用Imagent的CLI來生成圖像、視頻和語音,將其作為工作流中的一個自然步驟,無需為每個工具進行定製集成。

其次,它提供了統一的接口,支持多家提供商和模型。目前支持的提供商包括OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus(火山引擎Seedream/Seedance)、xAI Grok、MiniMax TTS和ElevenLabs TTS。用户和代理可以在不重寫提示或參數的情況下,輕鬆切換提供商或模型。

第三,生成的資產具有持久性。每個生成的圖像、視頻、音頻片段以及可複用的角色、物體、背景、風格和參考素材,都會保存在一個本地管理的庫中。用户可以在不同項目中策劃、搜索和重用這些輸出,而無需每次都重新生成。

快速開始:安裝CLI(npm install -g @imagent/cli)或下載桌面版(macOS或Windows)。桌面版尚未簽名,macOS需要移除隔離屬性(xattr -cr Imagent.app),Windows則需選擇“更多信息→仍要運行”以繞過SmartScreen警告。使用示例:imagent image generate "minimal product photo of a ceramic mug"等。

代理技能集成:倉庫中包含一個立即可用的技能(skills/imagent),可安裝到任何兼容的代理運行時。安裝後,代理可以運行imagent doctor來檢測是否使用共享本地庫和已配置的提供商。

典型工作流包括:賦予編碼或自動化代理在任務過程中生成視覺和音頻資產的能力;在不同的提供商和模型之間切換;建立可複用的角色、樣式和參考資產庫;回顧和整理代理生成的所有內容;以及通過共享本地工作區將終端自動化與桌面審查相結合。

項目結構清晰,包含apps(桌面應用和CLI)、packages(核心邏輯、提供商適配器、持久化、配置、IPC通信和UI組件)等。目前Imagent處於早期階段,數據結構、打包和部分功能集可能會持續演進。當前版本不包含遙測、自動更新、雲同步或賬户系統。桌面包未經簽名,因此首次啓動時可能會觸發系統警告。

許可證為Apache License 2.0,貢獻者需同意其貢獻將以此許可證授權。