2026-05-29站内改写

Serverless 2.0：三种推理运行方式，一个API

Fireworks AI推出Serverless 2.0，在无需预留容量的情况下，通过一个API提供标准、优先和快速三种推理服务路径。标准路径是默认的弹性共享基础设施，优先路径在高负载下提供更强的准入保障，快速路径则实现约两倍的生成令牌吞吐量。同时，该版本将负载丢弃和速率限制错误码分离，明确区分429和503状态码，帮助开发者编写正确的重试逻辑和警报配置。

文章情报

工程师进阶

要点

Serverless 2.0 提供三种服务意图：标准（默认）、优先（高负载下优先准入）和快速（高吞吐量）。
优先路径在峰值负载测试中实现了0%的503错误率，而标准路径为0.082%。
新版本将负载丢弃（503）与速率限制（429）错误码分离，提供更清晰的信号。
还预览了Background异步处理服务，价格约为标准的四分之一。

为什么重要

这条新闻值得关注，因为Serverless 2.0 提供三种服务意图：标准（默认）、优先（高负载下优先准入）和快速（高吞吐量）。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Fireworks AI 今日正式发布 Serverless 2.0，在无需预留 GPU 容量的前提下，通过单一 API 提供三种推理服务路径：标准（Standard）、优先（Priority）和快速（Fast）。这一更新旨在解决早期无服务器推理只有一种服务选项、升级需预留部署的局限性。

标准路径为默认设置，基于弹性共享基础设施，适用于开发、原型设计及可容忍偶尔限流的生成工作负载。优先路径在高负载时优先保证请求准入，显著降低拒绝概率。峰值负载测试显示，优先路径的 503 错误率为 0%，而标准路径为 0.082%。快速路径为支持的模型提供高速推理，目标吞吐量超过每秒 100 个生成令牌，适用于对延迟敏感的交互式应用或代理循环。

除了服务路径扩展，Serverless 2.0 还优化了错误处理。此前速率限制和负载丢弃均以 HTTP 429 返回，导致开发者难以区分。新版本将两者分离：429 表示账户请求或令牌超限，503 细分为负载丢弃（建议重试）和服务不可用（SLA 涵盖）。这一改进有助于开发人员编写精确的重试逻辑和告警策略。

定价方面，优先路径约为标准的 1.5 倍，快速路径因模型而异。此外，Fireworks AI 还预览了 Background 服务，以约四分之一的价格提供异步队列处理，适合批处理作业、离线分析等场景。未来版本将包括更高速率限制、区域路由和预留容量管理等功能。

Serverless 2.0 还引入了客户案例：Innovative Solutions 公司每位工程师管理多个并发的 AI 代理工作流，通过 Fireworks 实现了 3 倍的项目容量和 38% 的更快上线速度。这一更新为团队提供了从标准到优先再到快速的平滑升级路径，无需预先承诺专用容量。