AI News HubLIVE
站内改写

Serverless 2.0:三种推理运行方式,一个API

Fireworks AI推出Serverless 2.0,在无需预留容量的情况下,通过一个API提供标准、优先和快速三种推理服务路径。标准路径是默认的弹性共享基础设施,优先路径在高负载下提供更强的准入保障,快速路径则实现约两倍的生成令牌吞吐量。同时,该版本将负载丢弃和速率限制错误码分离,明确区分429和503状态码,帮助开发者编写正确的重试逻辑和警报配置。

文章情报

工程师进阶

要点

  • Serverless 2.0 提供三种服务意图:标准(默认)、优先(高负载下优先准入)和快速(高吞吐量)。
  • 优先路径在峰值负载测试中实现了0%的503错误率,而标准路径为0.082%。
  • 新版本将负载丢弃(503)与速率限制(429)错误码分离,提供更清晰的信号。
  • 还预览了Background异步处理服务,价格约为标准的四分之一。

为什么重要

这条新闻值得关注,因为Serverless 2.0 提供三种服务意图:标准(默认)、优先(高负载下优先准入)和快速(高吞吐量)。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Fireworks AI 今日正式发布 Serverless 2.0,在无需预留 GPU 容量的前提下,通过单一 API 提供三种推理服务路径:标准(Standard)、优先(Priority)和快速(Fast)。这一更新旨在解决早期无服务器推理只有一种服务选项、升级需预留部署的局限性。

标准路径为默认设置,基于弹性共享基础设施,适用于开发、原型设计及可容忍偶尔限流的生成工作负载。优先路径在高负载时优先保证请求准入,显著降低拒绝概率。峰值负载测试显示,优先路径的 503 错误率为 0%,而标准路径为 0.082%。快速路径为支持的模型提供高速推理,目标吞吐量超过每秒 100 个生成令牌,适用于对延迟敏感的交互式应用或代理循环。

除了服务路径扩展,Serverless 2.0 还优化了错误处理。此前速率限制和负载丢弃均以 HTTP 429 返回,导致开发者难以区分。新版本将两者分离:429 表示账户请求或令牌超限,503 细分为负载丢弃(建议重试)和服务不可用(SLA 涵盖)。这一改进有助于开发人员编写精确的重试逻辑和告警策略。

定价方面,优先路径约为标准的 1.5 倍,快速路径因模型而异。此外,Fireworks AI 还预览了 Background 服务,以约四分之一的价格提供异步队列处理,适合批处理作业、离线分析等场景。未来版本将包括更高速率限制、区域路由和预留容量管理等功能。

Serverless 2.0 还引入了客户案例:Innovative Solutions 公司每位工程师管理多个并发的 AI 代理工作流,通过 Fireworks 实现了 3 倍的项目容量和 38% 的更快上线速度。这一更新为团队提供了从标准到优先再到快速的平滑升级路径,无需预先承诺专用容量。