2026-06-01 15:57 UTC+8站內改寫6 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

今天起，無限期免費！全球首個全模態API開放，Top 10 AI Lab出手

Agnes AI（全球Top 10 AI實驗室）宣佈無限期免費開放其核心模型API，包括文本、影像、影片模型，旨在降低開發者和創作者的使用門檻。

來源量子位作者: 十三

今天起，無限期免費！全球首個全模態API開放，Top 10 AI Lab出手 – 量子位

十三 2026-06-01 15:57:16

來源：量子位

文本影像影片都能用

金磊發自凹非寺

量子位 | 公眾號 QbitAI

好好好，終於有人把文本、圖片、影片全模態的API，統統給免費開放出來了！

這次動手的，是Agnes AI——

從今天起，正式面向全球開發者與創作者，無限期免費開放旗下核心模型API！

都有啥？

文本模型：Agnes-2.0-Flash

圖片模型：Agnes-Image-2.0-Flash

影片模型：Agnes-Video-2.0

可以說是非常之全乎兒~

來，咱們先看一個影片模型的效果。

影片地址：

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

可以看到，即便是免費的API，影片模型依舊能穩穩生成上世紀的電影風格。

但也正如我們剛才說的，這次Agnes不是單獨把某一個能力免費，而是把文本、圖片、影片三類API一起開放。

所以說，以後一個開發者想做Agent、一個設計師想改圖、一個短影片團隊想批次試分鏡，都能從同一個模型體系裡呼叫能力。

那麼其它模型的效果如何？

一波實測，走起~

免費的API，效果咋樣？

先來看下文本模型Agnes-2.0-Flash。

我們先讓它直接來做一個應用，Prompt是這樣的：

幫助我構建高德地圖型別的地圖App，以北京市東城區總部衚衕明陽國際中心為起點。地圖要可以放大縮小，輸入目的地起始點，移動端垂直屏APP介面，地圖應用UI設計，簡潔介面，分層UI佈局，圓角佈局，中部，高座標度圖示，手機螢幕畫幅，8K，UI介面設計，細節。1.寫實實地圖景觀（高德/百度風格）衛星實景地圖底圖，城市道路路網，建築標記，綠色植被區塊，藍色水系湖泊，道路分級，地點文字標籤，縮放比例尺控制元件，定位點圖示，室外光影寫實

這個任務考驗的是模型能不能把產品需求、UI結構、互動邏輯和視覺風格揉到一起。

從效果來看，Agnes-2.0-Flash明顯把Prompt裡的需求都一一做到位了。

對開發者來說，這種能力的價值在於，早期原型可以從白紙畫框架變成直接讓模型生成可參考的互動稿。

第一個場景，是讓它做一個手勢控制電影級3D AI網站。

Prompt如下：

Create a cinematic 3D AI website with breathtaking visuals.

可以看到，生成的HTML裡面的各種3D效果直接夯爆了。

Agnes-2.0-Flash已經把視覺、互動和體驗等都塞進一個需求裡。

接下來，我們再做一個更復雜的3D粒子系統。

用 Three.js + MediaPipe Hands 做一個手勢控制的 3D 粒子系統，單檔案 HTML，要炫酷一點：粒子（約 2.5 萬個）用自定義 ShaderMaterial：頂點著色器做閃爍（twinkle，按時間+位置正弦波動 + 距離衰減點大小），片元著色器做圓形柔光輝光（exp(-d*4) 徑向 glow + AdditiveBlending），讓粒子像發光星點。

嗯，效果可以說是相當炸裂了。

這類案例能說明一點，Agnes-2.0-Flash在複雜結構化任務裡，目標不是隻給答案，而是把一個可執行的專案拆出來。

看完文本模型，我們再來看圖片模型Agnes-Image-2.0-Flash。

第一個場景，我們看下它是否能完全理解Prompt的意思：

賽博朋克動畫場景，雨夜的未來東京人行天橋，潮溼反光的地面，金屬框架的通道結構，頭頂有熒光燈管照明，行人撐傘在雨霧中穿行，背景是被雨霧模糊的摩天大樓與霓虹招牌，冷色調為主，粉紫與青藍的霓虹光暈在霧氣中散開，朦朧的雨夜氛圍感，鏡頭向通道深處延伸，景深效果，動漫渲染，細膩的光影與水汽效果。

可以看到，Agnes-Image-2.0-Flash生成的圖片確實get到了Prompt的諸多細節。

第二個場景，是電商主圖。

我們先給Agnes-Image-2.0-Flash這樣的Prompt：

少女已經完全跨出了螢幕，雙腳穩站在地面上，一隻手用力撥開殘餘的螢幕碎片向外推展，另一隻手則伸向鏡頭前，彷彿邀你走進這個奇幻空間

第三個場景，是資訊圖和社交媒體配圖。

一張手機社交APP的豎屏圖文教程截圖，採用從上到下的瀑布流排版。整體背景為溫馨的淺米色，呈現出日系清新的美食排版風格。畫面最頂部有手機系統的狀態列，清晰顯示時間 ‘14:30’、5G訊號圖示、Wi-Fi圖示和滿格電池圖示。\n\n狀態列下方，是居中排版的大字號主標題，深棕色粗體文字 ‘巧克力拿鐵零失敗教程’，標題下方有一行較小的淺棕色英文副標題 ‘Chocolate Latte Recipe’。\n\n標題下方佔據畫面約三分之一比例的是一張高畫質的成品展示主圖：放置在淺色木托盤上的一杯高透明度的玻璃杯裝巧克力拿鐵。杯內呈現出漂亮的分層：底部是深棕色的巧克力醬，中間是濃郁的濃縮咖啡與牛奶的融合層，頂部是綿密的奶泡，奶泡上撒著些許巧克力碎，並淋著深褐色的巧克力醬拉花。杯口裝飾有一根肉桂棒和一小枝薄荷。

這種任務考的是圖文排版和指令遵循。因為資訊圖不是單純畫一張插畫，它要處理標題、層級、留白、圖示、說明文字之間的關係。對公眾號、短影片封面、課程海報、企業內訓材料來說，這類能力非常剛需。

最後，我們再來看影片模型Agnes-Video-2.0。

我們圍繞《龍族甦醒》這個主題來做個影片，Prompt是這樣的：

16:9 橫屏，15 秒，奇幻史詩，龍之火焰。0-3 秒：俯拍古老山洞，洞內岩漿緩慢流動如河流般發出橙紅色光芒，洞壁佈滿鐘乳石，環境悶熱溼潤，每一塊石頭上都覆蓋著晶瑩的水珠。3-7 秒：中景，巨龍緩緩睜開眼睛，它的眼睛如燈籠般大小，瞳孔是金色的豎瞳，鱗片在岩漿光芒下閃爍如紅寶石，每一片鱗片都清晰可見。7-11 秒：特寫龍眼，瞳孔收縮視線聚焦，壓迫感撲面而來，巨頭移動帶動周圍空氣流動形成風，岩漿開始沸騰冒泡氣泡翻滾。11-15 秒：全景拉遠，巨龍完全甦醒抬起頭顱發出震耳欲聾的咆哮，聲音穿透山洞，石塊開始墜落，龍翼展開颳起狂風。【強化詞】巨龍特效，火焰物理，鱗片細節，電影級，4K 高畫質，奇幻史詩。

影片地址：

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

短短15秒，效果已經有迪士尼動畫的味道了。

第二個場景，是音畫同出：

[VISUAL]: EXT. CORNFIELD – SUMMER – BRIGHT SUN. A teenager runs through the corn, arms brushing against leaves, then stops at a clearing. He sits on the ground, breathing hard, and looks up at the sky. [SPEECH]: None [SOUNDS]: Corn rustle, breathing, insects. [TEXT]: None

影片地址：

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

音畫同出的難點，是中間過程不能違和。從效果來看，整個影片音畫同步性可謂是一氣呵成。

如此一來，對廣告分鏡、產品短片等場景來說，試錯門檻會低很多。

第三個場景，我們結合圖片生成的案例，來考驗一下運鏡的效果：

大師級運鏡，由遠及近拉近，鏡頭推至天橋下，行人撐著傘匆匆忙忙

影片地址：

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

Agnes-Video-2.0依舊是穩穩拿捏住了。

這些案例能看出影片模型更接近真實創作流程的地方，創作者並不只需要動起來，還需要情緒、鏡頭、景別、光影和氛圍一起服務於內容。短劇、廣告、劇情分鏡、音樂MV、社媒影片都不是單幀審美，而是連續敘事。

所以，Agnes這次免費開放的重點，不只是多了一個免費模型。更準確地說，它是在把文本、影像、影片三類能力，打包成一套可呼叫的創作與開發基礎設施。

幾分鐘就能上手的那種

除了效果，操作方式也是極易上手。

最直接的入口，是Agnes官方API平臺：

https://platform.agnes-ai.com/。開發者登入後建立API Key，就可以按文件呼叫對應模型。

如果使用Workbuddy，可以把Agnes的圖片或影片模型打包成一個Skill。比如配置Agnes Image 2.0或Agnes Video V2.0後，在對話裡就能像呼叫工具一樣呼叫生圖、生影片能力。

如果使用Hermes這類本地Agent，也可以把Agnes-2.0-Flash配置成預設模型。關鍵配置主要是API Key、自定義模型提供商、介面地址

https://apihub.agnes-ai.com/v1，以及模型名稱agnes-2.0-flash。

對開發者來說，免費API意味著可以放心做高頻測試；對Agent應用來說，意味著多輪規劃、工具呼叫、失敗重試不再每一步都要計算成本；對內容創作者來說，意味著影像和影片可以更大膽地試鏡頭、試風格、試版本。

背後是Top 10 AI Lab

Agnes AI是全球Top 10的AI Lab。

根據Agnes披露的資訊，Agnes-2.0-Flash進入Claw-Eval榜單，影像模型Agnes-Image-2.0-Flash進入Artificial Analysis的Image Editing Leaderboard，影片模型Agnes-Video-V2.0也進入Artificial Analysis的Image to Video Leaderboard（With Audio）。

這些榜單成績至少說明一件事，Agnes已經進入全球多模態模型競爭的可見區。

但這件事更值得討論的地方，不只是排名。

過去兩年，大模型競爭最容易被看見的主線，是誰引數更大、誰跑分更高、誰釋出會更炸。這個方向當然重要，因為模型能力決定了上限。

但到了應用落地階段，另一個問題會變得越來越現實：

誰能讓更多人真正用得起？

尤其是在Agent時代，呼叫成本會被進一步放大。一個普通聊天請求可能只消耗一次Token，但一個Agent工作流可能要反覆規劃、搜尋、呼叫工具、寫程式碼、檢查結果、失敗重試。看起來只是使用者發出一句話，背後可能已經跑了幾十輪模型呼叫。

免費API，真正影響的還有開發者的實驗空間。

很多AI應用並不是沒有需求，而是卡在早期試錯階段：還沒驗證PMF，呼叫成本先上來了；還沒形成收入，模型賬單先跑起來了；還沒招到完整團隊，一個人想做Agent、做多模態應用、做自動化流程，卻發現每一步都在燒錢。

Agnes的打法，某種程度上把這個壓力往後推了一步。

先讓更多人用起來，先讓開發者把Demo跑通，先讓創作者把工作流搭起來，先讓中小團隊敢做實驗。只有當使用門檻降下來，模型能力才有機會從榜單走向真實應用。

當然，免費並不自動等於成功。

真正決定一個模型能不能長期留下來的，還是穩定性、呼叫體驗、生態工具、文件完整度、併發能力和開發者社群。尤其是全模態API，後續要面對的不是單點能力競爭，而是端到端工作流競爭：文本怎麼規劃任務，影像怎麼生成素材，影片怎麼完成動態表達，工具怎麼串起來，失敗怎麼自動修復。

但至少這一次，Agnes給行業丟擲了一個很直接的問題：

當高質量AI能力越來越像水、電、雲伺服器一樣成為基礎設施，它到底應該有多貴？

如果說過去兩年，大模型競爭的關鍵詞是更強；那麼接下來，更可用、更便宜、更容易接入，會變得同樣關鍵。

因為真正改變行業的，往往不是少數人用得起的尖端能力，而是足夠多人能反覆呼叫、持續試錯、最終長進工作流裡的基礎能力。

Agnes AI Lab 免費API 全模態API

十三

國產GPU開始造世界！國內首個全棧具身智慧模擬平臺來了2026-05-19

剛剛，國產AI自己造了AI，全球首例！2026-05-26

頂流裡最快！智譜，你是在「噴」程式碼吧2026-05-22

國產GPU組了個開源局，把SGLang等核心開發者都搖來了！2026-05-14