AI News HubLIVE
站内改写1 分鐘閱讀

Trilogy 藉助 Fireworks AI 驗證開源權重模型在企業工作負載中的表現

Trilogy 的 AI 卓越中心評估了 Fireworks AI 作為推理基礎設施,以標準化開源權重模型的使用,降低了成本並實現了十億級 token 的代理工作流。

Trilogy 的 AI 卓越中心(AI COE)管理著數百家投資組合公司,隨著 AI 採用規模擴大,面臨日益增長的推理成本和運營限制。為解決這些問題,Trilogy 評估了多種開源權重模型,並選擇 Fireworks AI 作為主要的推理基礎設施層,用於評估和早期生產工作負載。

此前,Trilogy 重度依賴 Anthropic 和 OpenAI 等專有模型,成本隨採用率線性增長,且速率限制、使用上限和基礎設施波動嚴重影響了開發和部署體驗。隨著開源模型在效能上接近專有模型且成本低一個數量級,Trilogy 決定轉向開源方案。

在評估多個推理提供商後,Trilogy 選擇了 Fireworks AI,因其能夠提供一致、可靠且具有企業級控制的推理服務。Fireworks 最初被整合到現有的代理工作流中,用於評估 Kimi 等新興開源模型。團隊透過內部基準測試對效能、延遲和成本進行對比。由於速率限制問題,Fireworks 逐漸成為評估和試點工作負載的主要推理提供商。

Fireworks 作為生產級推理基礎設施,使 Trilogy 能夠快速部署開源模型、在不同模型變體間切換,並在高吞吐量下保持穩定推理。這顯著加速了模型評估週期,從基礎設施密集型整合轉變為輕量級評估迴圈。

藉助 Fireworks,Trilogy 開始執行高容量、多步驟的代理工作流,例如內部工作編排系統 OpenSymphony。OpenSymphony 是一個多代理系統,將工程工作分解為迭代規劃、執行和驗證迴圈,實現並行執行和自動缺陷檢測。在活躍生產條件下,OpenSymphony 實現了 93.6% 的提示快取命中率、每秒超過 12K 快取的 token,以及每個請求 75K token、每秒約 150 token 的長期上下文處理能力。

總體而言,Trilogy 透過 Fireworks AI 實現了開源權重模型在企業規模上的探索和採用,將推理成本降低至專有系統的約五分之一,同時消除了速率限制的影響。AI 系統從孤立實驗轉變為支援評估、測試和生產級代理工作負載的共享推理層。