Serverless 2.0:三種推理運行方式,一個API
Fireworks AI推出Serverless 2.0,在無需預留容量的情況下,通過一個API提供標準、優先和快速三種推理服務路徑。標準路徑是默認的彈性共享基礎設施,優先路徑在高負載下提供更強的准入保障,快速路徑則實現約兩倍的生成令牌吞吐量。同時,該版本將負載丟棄和速率限制錯誤碼分離,明確區分429和503狀態碼,幫助開發者編寫正確的重試邏輯和警報配置。
文章情報
要點
- Serverless 2.0 提供三種服務意圖:標準(默認)、優先(高負載下優先准入)和快速(高吞吐量)。
- 優先路徑在峯值負載測試中實現了0%的503錯誤率,而標準路徑為0.082%。
- 新版本將負載丟棄(503)與速率限制(429)錯誤碼分離,提供更清晰的信號。
- 還預覽了Background異步處理服務,價格約為標準的四分之一。
為甚麼重要
這條新聞值得關注,因為Serverless 2.0 提供三種服務意圖:標準(默認)、優先(高負載下優先准入)和快速(高吞吐量)。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Fireworks AI 今日正式發佈 Serverless 2.0,在無需預留 GPU 容量的前提下,通過單一 API 提供三種推理服務路徑:標準(Standard)、優先(Priority)和快速(Fast)。這一更新旨在解決早期無服務器推理只有一種服務選項、升級需預留部署的侷限性。
標準路徑為默認設置,基於彈性共享基礎設施,適用於開發、原型設計及可容忍偶爾限流的生成工作負載。優先路徑在高負載時優先保證請求准入,顯著降低拒絕概率。峯值負載測試顯示,優先路徑的 503 錯誤率為 0%,而標準路徑為 0.082%。快速路徑為支持的模型提供高速推理,目標吞吐量超過每秒 100 個生成令牌,適用於對延遲敏感的交互式應用或代理循環。
除了服務路徑擴展,Serverless 2.0 還優化了錯誤處理。此前速率限制和負載丟棄均以 HTTP 429 返回,導致開發者難以區分。新版本將兩者分離:429 表示賬户請求或令牌超限,503 細分為負載丟棄(建議重試)和服務不可用(SLA 涵蓋)。這一改進有助於開發人員編寫精確的重試邏輯和告警策略。
定價方面,優先路徑約為標準的 1.5 倍,快速路徑因模型而異。此外,Fireworks AI 還預覽了 Background 服務,以約四分之一的價格提供異步隊列處理,適合批處理作業、離線分析等場景。未來版本將包括更高速率限制、區域路由和預留容量管理等功能。
Serverless 2.0 還引入了客户案例:Innovative Solutions 公司每位工程師管理多個併發的 AI 代理工作流,通過 Fireworks 實現了 3 倍的項目容量和 38% 的更快上線速度。這一更新為團隊提供了從標準到優先再到快速的平滑升級路徑,無需預先承諾專用容量。