AI News HubLIVE
站内改写2 分で読了

Trilogy、Fireworks AIによるオープンウェイトAIモデルのエンタープライズワークロード検証を実施

TrilogyのAI Center of Excellenceは、Fireworks AIを推論インフラとして評価し、オープンウェイトモデルの使用を標準化、コストを削減し、数十億トークンスケールのエージェンティックワークフローを実現しました。

TrilogyのAI Center of Excellence(AI COE)は、数百のポートフォリオ企業を統括し、AI導入の拡大に伴う推論コストの増大と運用上の制約に直面していました。そこで、オープンウェイトモデルを評価し、Fireworks AIを主要な推論インフラストラクチャとして採用することにしました。

これまでTrilogyはAnthropicやOpenAIなどの専有モデルを大量に利用していましたが、コストが採用の拡大に比例して増加し、レート制限や使用上限、インフラの変動が開発体験に悪影響を及ぼしていました。一方、オープンウェイトモデルは性能面で専有モデルに追いつきつつあり、コストは桁違いに低くなっていました。

Fireworks AIは、統合の容易さ、一貫したパフォーマンス、エンタープライズ向けの制御機能が評価され、選定されました。当初はエージェントワークフローに組み込まれ、Kimiクラスのモデル評価に使用されました。評価の過程でレート制限が課題となり、Fireworksが主要な推論プロバイダーとして定着しました。

Fireworksにより、Trilogyはインフラのオーバーヘッドなくオープンウェイトモデルをデプロイし、モデル間の迅速な切り替え、高スループットでの安定した推論を実現しました。これにより、モデル評価サイクルが大幅に短縮され、軽量な評価ループへと変革しました。

さらに、Fireworksを推論レイヤーとして、Trilogyは高ボリュームのマルチステップエージェンティックワークフローを実行し始めました。代表例が内部ワークオーケストレーションシステム「OpenSymphony」です。これはマルチエージェントシステムで、エンジニアリング作業を反復的な計画、実行、検証サイクルに分解し、並列実行と自動バグ検出を可能にします。本番環境では、93.6%のプロンプトキャッシュヒット率、毎秒12K以上のキャッシュトークン、リクエストあたり75Kトークン、毎秒約150トークンの長コンテキスト処理を達成しました。

全体として、TrilogyはFireworks AIを通じて、エンタープライズ規模でのオープンウェイトモデルの探索と採用を実現し、推論コストを専有システムの約5分の1に削減し、レート制限の影響を排除しました。AIシステムは、実験から評価、テスト、本番規模のエージェンティックワークロードをサポートする共有推論レイヤーへと進化しました。