2026-07-03 11:31 UTC+8站内改写2 分钟阅读更新: 2026-07-03 11:35 UTC+8

Show HN：Imagent – 智能体驱动的图像/视频/语音生成

Imagent是一个将图像、视频和语音生成能力集成到AI代理工作流中的开源工具。它提供统一的CLI接口，支持多个AI提供商（如OpenAI、Google、ElevenLabs等），并管理生成的资产库，方便复用。

来源Hacker News AI作者: unliftedq

Imagent是一个开源项目，旨在解决当前AI代理的一个常见局限：大多数代理能够推理和编写代码，但无法生成图像、视频或音频。临时编写的脚本往往是一次性的、锁定特定提供商，并且在完成后就会丢失所有生成的资产。Imagent通过三个核心功能解决了这个问题：

首先，它将生成能力作为代理的原生技能。通过内置的技能包，任何兼容的代理都可以调用Imagent的CLI来生成图像、视频和语音，将其作为工作流中的一个自然步骤，无需为每个工具进行定制集成。

其次，它提供了统一的接口，支持多家提供商和模型。目前支持的提供商包括OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus（火山引擎Seedream/Seedance）、xAI Grok、MiniMax TTS和ElevenLabs TTS。用户和代理可以在不重写提示或参数的情况下，轻松切换提供商或模型。

第三，生成的资产具有持久性。每个生成的图像、视频、音频片段以及可复用的角色、物体、背景、风格和参考素材，都会保存在一个本地管理的库中。用户可以在不同项目中策划、搜索和重用这些输出，而无需每次都重新生成。

快速开始：安装CLI（npm install -g @imagent/cli）或下载桌面版（macOS或Windows）。桌面版尚未签名，macOS需要移除隔离属性（xattr -cr Imagent.app），Windows则需选择“更多信息→仍要运行”以绕过SmartScreen警告。使用示例：imagent image generate "minimal product photo of a ceramic mug"等。

代理技能集成：仓库中包含一个立即可用的技能（skills/imagent），可安装到任何兼容的代理运行时。安装后，代理可以运行imagent doctor来检测是否使用共享本地库和已配置的提供商。

典型工作流包括：赋予编码或自动化代理在任务过程中生成视觉和音频资产的能力；在不同的提供商和模型之间切换；建立可复用的角色、样式和参考资产库；回顾和整理代理生成的所有内容；以及通过共享本地工作区将终端自动化与桌面审查相结合。

项目结构清晰，包含apps（桌面应用和CLI）、packages（核心逻辑、提供商适配器、持久化、配置、IPC通信和UI组件）等。目前Imagent处于早期阶段，数据结构、打包和部分功能集可能会持续演进。当前版本不包含遥测、自动更新、云同步或账户系统。桌面包未经签名，因此首次启动时可能会触发系统警告。

许可证为Apache License 2.0，贡献者需同意其贡献将以此许可证授权。