Trilogy 借助 Fireworks AI 验证开源权重模型在企业工作负载中的表现
Trilogy 的 AI 卓越中心评估了 Fireworks AI 作为推理基础设施,以标准化开源权重模型的使用,降低了成本并实现了十亿级 token 的代理工作流。
Trilogy 的 AI 卓越中心(AI COE)管理着数百家投资组合公司,随着 AI 采用规模扩大,面临日益增长的推理成本和运营限制。为解决这些问题,Trilogy 评估了多种开源权重模型,并选择 Fireworks AI 作为主要的推理基础设施层,用于评估和早期生产工作负载。
此前,Trilogy 重度依赖 Anthropic 和 OpenAI 等专有模型,成本随采用率线性增长,且速率限制、使用上限和基础设施波动严重影响了开发和部署体验。随着开源模型在性能上接近专有模型且成本低一个数量级,Trilogy 决定转向开源方案。
在评估多个推理提供商后,Trilogy 选择了 Fireworks AI,因其能够提供一致、可靠且具有企业级控制的推理服务。Fireworks 最初被集成到现有的代理工作流中,用于评估 Kimi 等新兴开源模型。团队通过内部基准测试对性能、延迟和成本进行对比。由于速率限制问题,Fireworks 逐渐成为评估和试点工作负载的主要推理提供商。
Fireworks 作为生产级推理基础设施,使 Trilogy 能够快速部署开源模型、在不同模型变体间切换,并在高吞吐量下保持稳定推理。这显著加速了模型评估周期,从基础设施密集型集成转变为轻量级评估循环。
借助 Fireworks,Trilogy 开始运行高容量、多步骤的代理工作流,例如内部工作编排系统 OpenSymphony。OpenSymphony 是一个多代理系统,将工程工作分解为迭代规划、执行和验证循环,实现并行执行和自动缺陷检测。在活跃生产条件下,OpenSymphony 实现了 93.6% 的提示缓存命中率、每秒超过 12K 缓存的 token,以及每个请求 75K token、每秒约 150 token 的长期上下文处理能力。
总体而言,Trilogy 通过 Fireworks AI 实现了开源权重模型在企业规模上的探索和采用,将推理成本降低至专有系统的约五分之一,同时消除了速率限制的影响。AI 系统从孤立实验转变为支持评估、测试和生产级代理工作负载的共享推理层。