AI News HubLIVE
站内改写

Serverless 2.0:3つの推論実行方法、1つのAPI

Fireworks AIはServerless 2.0を発表し、予約容量なしでStandard、Priority、Fastの3つの推論パスを1つのAPIで提供します。Priorityパスは混雑時により強いリクエスト許可を提供し、Fastパスは約2倍のスループットを実現。また、負荷制限(503)とレート制限(429)を明確に分離し、リトライロジックとアラートを改善します。

記事インテリジェンス

エンジニア上級

要点

  • Serverless 2.0は3つのサービスインテントを提供:Standard(デフォルト)、Priority(負荷時優先許可)、Fast(高スループット)。
  • Priorityはピーク負荷テストで0%の503エラーレートを達成、Standardは0.082%。
  • エラーコードを明示化:429はアカウントレート制限、503はフリート負荷制限(リトライ)とサービス利用不可(SLA対象)。
  • Background非同期処理をプレビュー、Standardの約1/4のコスト。

重要な理由

このニュースが重要なのは、Serverless 2.0は3つのサービスインテントを提供:Standard(デフォルト)、Priority(負荷時優先許可)、Fast(高スループット)ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Fireworks AI は本日、Serverless 2.0 をリリースしました。GPU 容量を事前予約することなく、単一の API で Standard、Priority、Fast の3つの推論パスを提供します。これまでのサーバーレス推論は1つの選択肢しかなく、アップグレードには専用デプロイメントと GPU 予約が必要でした。

Standard パスはデフォルトで、弾力的な共有インフラ上で動作し、開発、プロトタイピング、および時折のスロットリングを許容できる本番ワークロードに適しています。Priority パスは高負荷時にリクエストの許可を優先し、拒否率を大幅に低減します。実際のピーク負荷テストでは、Priority の503エラーレートは0%、Standard は0.082%でした。Fast パスは対応モデルに対して高速な推論パスを提供し、目標は毎秒100トークン以上の生成スループットです。エージェントループやコーディングワークフローなどに最適です。

Serverless 2.0 ではエラーコードも明確化されました。従来はレート制限と負荷制限の両方が HTTP 429 で返されていましたが、今回のアップデートで 429 はアカウントのレート制限、503 は負荷制限(リトライ推奨)とサービス利用不可(SLA対象)に分割されました。

価格面では、Priority パスは Standard の約1.5倍、Fast パスはモデルにより異なります。また、Background 非同期処理サービスがプレビュー公開され、Standard の約4分の1のコストで利用できます。将来のアップデートでは、より高いレート制限、リージョンベースのルーティング、予約容量管理が計画されています。

また、Innovative Solutions の顧客事例では、各エンジニアが複数の AI エージェントワークフローを実行し、Fireworks によりプロジェクト容量が3倍、本番投入が38%高速化されました。Serverless 2.0 は、共有サーバーレスのシンプルさを保ちながら、信頼性とスループットに対するより高度な制御を提供します。