2026-07-03 11:31 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 11:35 UTC+8

Show HN：Imagent – 智慧體驅動的影像/影片/語音生成

Imagent是一個將影像、影片和語音生成能力整合到AI代理工作流中的開源工具。它提供統一的CLI介面，支援多個AI提供商（如OpenAI、Google、ElevenLabs等），並管理生成的資產庫，方便複用。

來源Hacker News AI作者: unliftedq

Imagent是一個開源專案，旨在解決當前AI代理的一個常見侷限：大多數代理能夠推理和編寫程式碼，但無法生成影像、影片或音訊。臨時編寫的指令碼往往是一次性的、鎖定特定提供商，並且在完成後就會丟失所有生成的資產。Imagent透過三個核心功能解決了這個問題：

首先，它將生成能力作為代理的原生技能。透過內建的技能包，任何相容的代理都可以呼叫Imagent的CLI來生成影像、影片和語音，將其作為工作流中的一個自然步驟，無需為每個工具進行定製整合。

其次，它提供了統一的介面，支援多家提供商和模型。目前支援的提供商包括OpenAI、Azure OpenAI、Google Imagen/Gemini、Flux/BFL、BytePlus（火山引擎Seedream/Seedance）、xAI Grok、MiniMax TTS和ElevenLabs TTS。使用者和代理可以在不重寫提示或引數的情況下，輕鬆切換提供商或模型。

第三，生成的資產具有永續性。每個生成的影像、影片、音訊片段以及可複用的角色、物體、背景、風格和參考素材，都會儲存在一個本地管理的庫中。使用者可以在不同專案中策劃、搜尋和重用這些輸出，而無需每次都重新生成。

快速開始：安裝CLI（npm install -g @imagent/cli）或下載桌面版（macOS或Windows）。桌面版尚未簽名，macOS需要移除隔離屬性（xattr -cr Imagent.app），Windows則需選擇“更多資訊→仍要執行”以繞過SmartScreen警告。使用示例：imagent image generate "minimal product photo of a ceramic mug"等。

代理技能整合：倉庫中包含一個立即可用的技能（skills/imagent），可安裝到任何相容的代理執行時。安裝後，代理可以執行imagent doctor來檢測是否使用共享本地庫和已配置的提供商。

典型工作流包括：賦予編碼或自動化代理在任務過程中生成視覺和音訊資產的能力；在不同的提供商和模型之間切換；建立可複用的角色、樣式和參考資產庫；回顧和整理代理生成的所有內容；以及透過共享本地工作區將終端自動化與桌面審查相結合。

專案結構清晰，包含apps（桌面應用和CLI）、packages（核心邏輯、提供商介面卡、持久化、配置、IPC通訊和UI元件）等。目前Imagent處於早期階段，資料結構、打包和部分功能集可能會持續演進。當前版本不包含遙測、自動更新、雲同步或賬戶系統。桌面包未經簽名，因此首次啟動時可能會觸發系統警告。

許可證為Apache License 2.0，貢獻者需同意其貢獻將以此許可證授權。