2026-05-29站内改写

Serverless 2.0：三種推理運行方式，一個API

Fireworks AI推出Serverless 2.0，在無需預留容量的情況下，通過一個API提供標準、優先和快速三種推理服務路徑。標準路徑是默認的彈性共享基礎設施，優先路徑在高負載下提供更強的准入保障，快速路徑則實現約兩倍的生成令牌吞吐量。同時，該版本將負載丟棄和速率限制錯誤碼分離，明確區分429和503狀態碼，幫助開發者編寫正確的重試邏輯和警報配置。

文章情報

工程師進階

要點

Serverless 2.0 提供三種服務意圖：標準（默認）、優先（高負載下優先准入）和快速（高吞吐量）。
優先路徑在峯值負載測試中實現了0%的503錯誤率，而標準路徑為0.082%。
新版本將負載丟棄（503）與速率限制（429）錯誤碼分離，提供更清晰的信號。
還預覽了Background異步處理服務，價格約為標準的四分之一。

為甚麼重要

這條新聞值得關注，因為Serverless 2.0 提供三種服務意圖：標準（默認）、優先（高負載下優先准入）和快速（高吞吐量）。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Fireworks AI 今日正式發佈 Serverless 2.0，在無需預留 GPU 容量的前提下，通過單一 API 提供三種推理服務路徑：標準（Standard）、優先（Priority）和快速（Fast）。這一更新旨在解決早期無服務器推理只有一種服務選項、升級需預留部署的侷限性。

標準路徑為默認設置，基於彈性共享基礎設施，適用於開發、原型設計及可容忍偶爾限流的生成工作負載。優先路徑在高負載時優先保證請求准入，顯著降低拒絕概率。峯值負載測試顯示，優先路徑的 503 錯誤率為 0%，而標準路徑為 0.082%。快速路徑為支持的模型提供高速推理，目標吞吐量超過每秒 100 個生成令牌，適用於對延遲敏感的交互式應用或代理循環。

除了服務路徑擴展，Serverless 2.0 還優化了錯誤處理。此前速率限制和負載丟棄均以 HTTP 429 返回，導致開發者難以區分。新版本將兩者分離：429 表示賬户請求或令牌超限，503 細分為負載丟棄（建議重試）和服務不可用（SLA 涵蓋）。這一改進有助於開發人員編寫精確的重試邏輯和告警策略。

定價方面，優先路徑約為標準的 1.5 倍，快速路徑因模型而異。此外，Fireworks AI 還預覽了 Background 服務，以約四分之一的價格提供異步隊列處理，適合批處理作業、離線分析等場景。未來版本將包括更高速率限制、區域路由和預留容量管理等功能。

Serverless 2.0 還引入了客户案例：Innovative Solutions 公司每位工程師管理多個併發的 AI 代理工作流，通過 Fireworks 實現了 3 倍的項目容量和 38% 的更快上線速度。這一更新為團隊提供了從標準到優先再到快速的平滑升級路徑，無需預先承諾專用容量。