AI News HubLIVE
站内改写2 分钟阅读

Show HN:Imagent – 智能体驱动的图像/视频/语音生成

Imagent是一个将图像、视频和语音生成能力集成到AI代理工作流中的开源工具。它提供统一的CLI接口,支持多个AI提供商(如OpenAI、Google、ElevenLabs等),并管理生成的资产库,方便复用。

来源Hacker News AI作者: unliftedq

Imagent是一个开源项目,旨在解决当前AI代理的一个常见局限:大多数代理能够推理和编写代码,但无法生成图像、视频或音频。临时编写的脚本往往是一次性的、锁定特定提供商,并且在完成后就会丢失所有生成的资产。Imagent通过三个核心功能解决了这个问题:

首先,它将生成能力作为代理的原生技能。通过内置的技能包,任何兼容的代理都可以调用Imagent的CLI来生成图像、视频和语音,将其作为工作流中的一个自然步骤,无需为每个工具进行定制集成。

其次,它提供了统一的接口,支持多家提供商和模型。目前支持的提供商包括OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus(火山引擎Seedream/Seedance)、xAI Grok、MiniMax TTS和ElevenLabs TTS。用户和代理可以在不重写提示或参数的情况下,轻松切换提供商或模型。

第三,生成的资产具有持久性。每个生成的图像、视频、音频片段以及可复用的角色、物体、背景、风格和参考素材,都会保存在一个本地管理的库中。用户可以在不同项目中策划、搜索和重用这些输出,而无需每次都重新生成。

快速开始:安装CLI(npm install -g @imagent/cli)或下载桌面版(macOS或Windows)。桌面版尚未签名,macOS需要移除隔离属性(xattr -cr Imagent.app),Windows则需选择“更多信息→仍要运行”以绕过SmartScreen警告。使用示例:imagent image generate "minimal product photo of a ceramic mug"等。

代理技能集成:仓库中包含一个立即可用的技能(skills/imagent),可安装到任何兼容的代理运行时。安装后,代理可以运行imagent doctor来检测是否使用共享本地库和已配置的提供商。

典型工作流包括:赋予编码或自动化代理在任务过程中生成视觉和音频资产的能力;在不同的提供商和模型之间切换;建立可复用的角色、样式和参考资产库;回顾和整理代理生成的所有内容;以及通过共享本地工作区将终端自动化与桌面审查相结合。

项目结构清晰,包含apps(桌面应用和CLI)、packages(核心逻辑、提供商适配器、持久化、配置、IPC通信和UI组件)等。目前Imagent处于早期阶段,数据结构、打包和部分功能集可能会持续演进。当前版本不包含遥测、自动更新、云同步或账户系统。桌面包未经签名,因此首次启动时可能会触发系统警告。

许可证为Apache License 2.0,贡献者需同意其贡献将以此许可证授权。