2026-06-03站内改写1 分鐘閱讀更新: 2026-06-03

Trilogy 藉助 Fireworks AI 驗證開源權重模型在企業工作負載中的表現

Trilogy 的 AI 卓越中心評估了 Fireworks AI 作為推理基礎設施，以標準化開源權重模型的使用，降低了成本並實現了十億級 token 的代理工作流。

Trilogy 的 AI 卓越中心（AI COE）管理著數百家投資組合公司，隨著 AI 採用規模擴大，面臨日益增長的推理成本和運營限制。為解決這些問題，Trilogy 評估了多種開源權重模型，並選擇 Fireworks AI 作為主要的推理基礎設施層，用於評估和早期生產工作負載。

此前，Trilogy 重度依賴 Anthropic 和 OpenAI 等專有模型，成本隨採用率線性增長，且速率限制、使用上限和基礎設施波動嚴重影響了開發和部署體驗。隨著開源模型在效能上接近專有模型且成本低一個數量級，Trilogy 決定轉向開源方案。

在評估多個推理提供商後，Trilogy 選擇了 Fireworks AI，因其能夠提供一致、可靠且具有企業級控制的推理服務。Fireworks 最初被整合到現有的代理工作流中，用於評估 Kimi 等新興開源模型。團隊透過內部基準測試對效能、延遲和成本進行對比。由於速率限制問題，Fireworks 逐漸成為評估和試點工作負載的主要推理提供商。

Fireworks 作為生產級推理基礎設施，使 Trilogy 能夠快速部署開源模型、在不同模型變體間切換，並在高吞吐量下保持穩定推理。這顯著加速了模型評估週期，從基礎設施密集型整合轉變為輕量級評估迴圈。

藉助 Fireworks，Trilogy 開始執行高容量、多步驟的代理工作流，例如內部工作編排系統 OpenSymphony。OpenSymphony 是一個多代理系統，將工程工作分解為迭代規劃、執行和驗證迴圈，實現並行執行和自動缺陷檢測。在活躍生產條件下，OpenSymphony 實現了 93.6% 的提示快取命中率、每秒超過 12K 快取的 token，以及每個請求 75K token、每秒約 150 token 的長期上下文處理能力。

總體而言，Trilogy 透過 Fireworks AI 實現了開源權重模型在企業規模上的探索和採用，將推理成本降低至專有系統的約五分之一，同時消除了速率限制的影響。AI 系統從孤立實驗轉變為支援評估、測試和生產級代理工作負載的共享推理層。