AI News HubLIVE
站内改写6 分钟阅读

今天起,无限期免费!全球首个全模态API开放,Top 10 AI Lab出手

Agnes AI(全球Top 10 AI实验室)宣布无限期免费开放其核心模型API,包括文本、图像、视频模型,旨在降低开发者和创作者的使用门槛。

来源量子位作者: 十三

今天起,无限期免费!全球首个全模态API开放,Top 10 AI Lab出手 – 量子位

今天起,无限期免费!全球首个全模态API开放,Top 10 AI Lab出手

十三 2026-06-01 15:57:16

来源:量子位

文本图像视频都能用

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

好好好,终于有人把文本、图片、视频全模态的API,统统给免费开放出来了!

这次动手的,是Agnes AI——

从今天起,正式面向全球开发者与创作者,无限期免费开放旗下核心模型API!

都有啥?

文本模型:Agnes-2.0-Flash

图片模型:Agnes-Image-2.0-Flash

视频模型:Agnes-Video-2.0

可以说是非常之全乎儿~

来,咱们先看一个视频模型的效果。

视频地址:

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

可以看到,即便是免费的API,视频模型依旧能稳稳生成上世纪的电影风格。

但也正如我们刚才说的,这次Agnes不是单独把某一个能力免费,而是把文本、图片、视频三类API一起开放。

所以说,以后一个开发者想做Agent、一个设计师想改图、一个短视频团队想批量试分镜,都能从同一个模型体系里调用能力。

那么其它模型的效果如何?

一波实测,走起~

免费的API,效果咋样?

先来看下文本模型Agnes-2.0-Flash。

我们先让它直接来做一个应用,Prompt是这样的:

帮助我构建高德地图类型的地图App,以北京市东城区总部胡同明阳国际中心为起点。地图要可以放大缩小,输入目的地起始点,移动端垂直屏APP界面,地图应用UI设计,简洁界面,分层UI布局,圆角布局,中部,高坐标度图标,手机屏幕画幅,8K,UI界面设计,细节。1.写实实地图景观(高德/百度风格)卫星实景地图底图,城市道路路网,建筑标记,绿色植被区块,蓝色水系湖泊,道路分级,地点文字标签,缩放比例尺控件,定位点图标,室外光影写实

这个任务考验的是模型能不能把产品需求、UI结构、交互逻辑和视觉风格揉到一起。

从效果来看,Agnes-2.0-Flash明显把Prompt里的需求都一一做到位了。

对开发者来说,这种能力的价值在于,早期原型可以从白纸画框架变成直接让模型生成可参考的交互稿。

第一个场景,是让它做一个手势控制电影级3D AI网站。

Prompt如下:

Create a cinematic 3D AI website with breathtaking visuals.

可以看到,生成的HTML里面的各种3D效果直接夯爆了。

Agnes-2.0-Flash已经把视觉、交互和体验等都塞进一个需求里。

接下来,我们再做一个更复杂的3D粒子系统。

用 Three.js + MediaPipe Hands 做一个手势控制的 3D 粒子系统,单文件 HTML,要炫酷一点: 粒子(约 2.5 万个) 用自定义 ShaderMaterial:顶点着色器做闪烁(twinkle,按时间+位置正弦波动 + 距离衰减点大小),片元着色器做圆形柔光辉光(exp(-d*4) 径向 glow + AdditiveBlending),让粒子像发光星点。

嗯,效果可以说是相当炸裂了。

这类案例能说明一点,Agnes-2.0-Flash在复杂结构化任务里,目标不是只给答案,而是把一个可运行的项目拆出来。

看完文本模型,我们再来看图片模型Agnes-Image-2.0-Flash。

第一个场景,我们看下它是否能完全理解Prompt的意思:

赛博朋克动画场景,雨夜的未来东京人行天桥,潮湿反光的地面,金属框架的通道结构,头顶有荧光灯管照明,行人撑伞在雨雾中穿行,背景是被雨雾模糊的摩天大楼与霓虹招牌,冷色调为主,粉紫与青蓝的霓虹光晕在雾气中散开,朦胧的雨夜氛围感,镜头向通道深处延伸,景深效果,动漫渲染,细腻的光影与水汽效果。

可以看到,Agnes-Image-2.0-Flash生成的图片确实get到了Prompt的诸多细节。

第二个场景,是电商主图。

我们先给Agnes-Image-2.0-Flash这样的Prompt:

少女已经完全跨出了屏幕,双脚稳站在地面上,一只手用力拨开残余的屏幕碎片向外推展,另一只手则伸向镜头前,仿佛邀你走进这个奇幻空间

第三个场景,是信息图和社交媒体配图。

一张手机社交APP的竖屏图文教程截图,采用从上到下的瀑布流排版。整体背景为温馨的浅米色,呈现出日系清新的美食排版风格。画面最顶部有手机系统的状态栏,清晰显示时间 ‘14:30’、5G信号图标、Wi-Fi图标和满格电池图标。\n\n状态栏下方,是居中排版的大字号主标题,深棕色粗体文字 ‘巧克力拿铁 零失败教程’,标题下方有一行较小的浅棕色英文副标题 ‘Chocolate Latte Recipe’。\n\n标题下方占据画面约三分之一比例的是一张高清的成品展示主图:放置在浅色木托盘上的一杯高透明度的玻璃杯装巧克力拿铁。杯内呈现出漂亮的分层:底部是深棕色的巧克力酱,中间是浓郁的浓缩咖啡与牛奶的融合层,顶部是绵密的奶泡,奶泡上撒着些许巧克力碎,并淋着深褐色的巧克力酱拉花。杯口装饰有一根肉桂棒和一小枝薄荷。

这种任务考的是图文排版和指令遵循。因为信息图不是单纯画一张插画,它要处理标题、层级、留白、图标、说明文字之间的关系。对公众号、短视频封面、课程海报、企业内训材料来说,这类能力非常刚需。

最后,我们再来看视频模型Agnes-Video-2.0。

我们围绕《龙族苏醒》这个主题来做个视频,Prompt是这样的:

16:9 横屏,15 秒,奇幻史诗,龙之火焰。0-3 秒:俯拍古老山洞,洞内岩浆缓慢流动如河流般发出橙红色光芒,洞壁布满钟乳石,环境闷热湿润,每一块石头上都覆盖着晶莹的水珠。3-7 秒:中景,巨龙缓缓睁开眼睛,它的眼睛如灯笼般大小,瞳孔是金色的竖瞳,鳞片在岩浆光芒下闪烁如红宝石,每一片鳞片都清晰可见。7-11 秒:特写龙眼,瞳孔收缩视线聚焦,压迫感扑面而来,巨头移动带动周围空气流动形成风,岩浆开始沸腾冒泡气泡翻滚。11-15 秒:全景拉远,巨龙完全苏醒抬起头颅发出震耳欲聋的咆哮,声音穿透山洞,石块开始坠落,龙翼展开刮起狂风。【强化词】巨龙特效,火焰物理,鳞片细节,电影级,4K 高清,奇幻史诗。

视频地址:

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

短短15秒,效果已经有迪士尼动画的味道了。

第二个场景,是音画同出:

[VISUAL]: EXT. CORNFIELD – SUMMER – BRIGHT SUN. A teenager runs through the corn, arms brushing against leaves, then stops at a clearing. He sits on the ground, breathing hard, and looks up at the sky. [SPEECH]: None [SOUNDS]: Corn rustle, breathing, insects. [TEXT]: None

视频地址:

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

音画同出的难点,是中间过程不能违和。从效果来看,整个视频音画同步性可谓是一气呵成。

如此一来,对广告分镜、产品短片等场景来说,试错门槛会低很多。

第三个场景,我们结合图片生成的案例,来考验一下运镜的效果:

大师级运镜,由远及近拉近,镜头推至天桥下,行人撑着伞匆匆忙忙

视频地址:

https://mp.weixin.qq.com/s/fe0tsOPNYAn9PmTolFlVZA

Agnes-Video-2.0依旧是稳稳拿捏住了。

这些案例能看出视频模型更接近真实创作流程的地方,创作者并不只需要动起来,还需要情绪、镜头、景别、光影和氛围一起服务于内容。短剧、广告、剧情分镜、音乐MV、社媒视频都不是单帧审美,而是连续叙事。

所以,Agnes这次免费开放的重点,不只是多了一个免费模型。更准确地说,它是在把文本、图像、视频三类能力,打包成一套可调用的创作与开发基础设施。

几分钟就能上手的那种

除了效果,操作方式也是极易上手。

最直接的入口,是Agnes官方API平台:

https://platform.agnes-ai.com/。开发者登录后创建API Key,就可以按文档调用对应模型。

如果使用Workbuddy,可以把Agnes的图片或视频模型打包成一个Skill。比如配置Agnes Image 2.0或Agnes Video V2.0后,在对话里就能像调用工具一样调用生图、生视频能力。

如果使用Hermes这类本地Agent,也可以把Agnes-2.0-Flash配置成默认模型。关键配置主要是API Key、自定义模型提供商、接口地址

https://apihub.agnes-ai.com/v1,以及模型名称agnes-2.0-flash。

对开发者来说,免费API意味着可以放心做高频测试;对Agent应用来说,意味着多轮规划、工具调用、失败重试不再每一步都要计算成本;对内容创作者来说,意味着图像和视频可以更大胆地试镜头、试风格、试版本。

背后是Top 10 AI Lab

Agnes AI是全球Top 10的AI Lab。

根据Agnes披露的信息,Agnes-2.0-Flash进入Claw-Eval榜单,图像模型Agnes-Image-2.0-Flash进入Artificial Analysis的Image Editing Leaderboard,视频模型Agnes-Video-V2.0也进入Artificial Analysis的Image to Video Leaderboard(With Audio)。

这些榜单成绩至少说明一件事,Agnes已经进入全球多模态模型竞争的可见区。

但这件事更值得讨论的地方,不只是排名。

过去两年,大模型竞争最容易被看见的主线,是谁参数更大、谁跑分更高、谁发布会更炸。这个方向当然重要,因为模型能力决定了上限。

但到了应用落地阶段,另一个问题会变得越来越现实:

谁能让更多人真正用得起?

尤其是在Agent时代,调用成本会被进一步放大。一个普通聊天请求可能只消耗一次Token,但一个Agent工作流可能要反复规划、搜索、调用工具、写代码、检查结果、失败重试。看起来只是用户发出一句话,背后可能已经跑了几十轮模型调用。

免费API,真正影响的还有开发者的实验空间。

很多AI应用并不是没有需求,而是卡在早期试错阶段:还没验证PMF,调用成本先上来了;还没形成收入,模型账单先跑起来了;还没招到完整团队,一个人想做Agent、做多模态应用、做自动化流程,却发现每一步都在烧钱。

Agnes的打法,某种程度上把这个压力往后推了一步。

先让更多人用起来,先让开发者把Demo跑通,先让创作者把工作流搭起来,先让中小团队敢做实验。只有当使用门槛降下来,模型能力才有机会从榜单走向真实应用。

当然,免费并不自动等于成功。

真正决定一个模型能不能长期留下来的,还是稳定性、调用体验、生态工具、文档完整度、并发能力和开发者社区。尤其是全模态API,后续要面对的不是单点能力竞争,而是端到端工作流竞争:文本怎么规划任务,图像怎么生成素材,视频怎么完成动态表达,工具怎么串起来,失败怎么自动修复。

但至少这一次,Agnes给行业抛出了一个很直接的问题:

当高质量AI能力越来越像水、电、云服务器一样成为基础设施,它到底应该有多贵?

如果说过去两年,大模型竞争的关键词是更强;那么接下来,更可用、更便宜、更容易接入,会变得同样关键。

因为真正改变行业的,往往不是少数人用得起的尖端能力,而是足够多人能反复调用、持续试错、最终长进工作流里的基础能力。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Agnes AI Lab 免费API 全模态API

十三

国产GPU开始造世界!国内首个全栈具身智能仿真平台来了2026-05-19

刚刚,国产AI自己造了AI,全球首例!2026-05-26

顶流里最快!智谱,你是在「喷」代码吧2026-05-22

国产GPU组了个开源局,把SGLang等核心开发者都摇来了!2026-05-14

热门文章

刚刚,国产AI自己造了AI,全球首例!

2026-05-26

卡帕西Anthropic最新头衔:技术员工(MTS)

2026-05-26

4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉

2026-05-29

面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」

2026-05-29

DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速

2026-05-28

扫码关注量子位

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1