2026-06-03站内改写1 分钟阅读更新: 2026-06-03

Trilogy 借助 Fireworks AI 验证开源权重模型在企业工作负载中的表现

Trilogy 的 AI 卓越中心评估了 Fireworks AI 作为推理基础设施，以标准化开源权重模型的使用，降低了成本并实现了十亿级 token 的代理工作流。

Trilogy 的 AI 卓越中心（AI COE）管理着数百家投资组合公司，随着 AI 采用规模扩大，面临日益增长的推理成本和运营限制。为解决这些问题，Trilogy 评估了多种开源权重模型，并选择 Fireworks AI 作为主要的推理基础设施层，用于评估和早期生产工作负载。

此前，Trilogy 重度依赖 Anthropic 和 OpenAI 等专有模型，成本随采用率线性增长，且速率限制、使用上限和基础设施波动严重影响了开发和部署体验。随着开源模型在性能上接近专有模型且成本低一个数量级，Trilogy 决定转向开源方案。

在评估多个推理提供商后，Trilogy 选择了 Fireworks AI，因其能够提供一致、可靠且具有企业级控制的推理服务。Fireworks 最初被集成到现有的代理工作流中，用于评估 Kimi 等新兴开源模型。团队通过内部基准测试对性能、延迟和成本进行对比。由于速率限制问题，Fireworks 逐渐成为评估和试点工作负载的主要推理提供商。

Fireworks 作为生产级推理基础设施，使 Trilogy 能够快速部署开源模型、在不同模型变体间切换，并在高吞吐量下保持稳定推理。这显著加速了模型评估周期，从基础设施密集型集成转变为轻量级评估循环。

借助 Fireworks，Trilogy 开始运行高容量、多步骤的代理工作流，例如内部工作编排系统 OpenSymphony。OpenSymphony 是一个多代理系统，将工程工作分解为迭代规划、执行和验证循环，实现并行执行和自动缺陷检测。在活跃生产条件下，OpenSymphony 实现了 93.6% 的提示缓存命中率、每秒超过 12K 缓存的 token，以及每个请求 75K token、每秒约 150 token 的长期上下文处理能力。

总体而言，Trilogy 通过 Fireworks AI 实现了开源权重模型在企业规模上的探索和采用，将推理成本降低至专有系统的约五分之一，同时消除了速率限制的影响。AI 系统从孤立实验转变为支持评估、测试和生产级代理工作负载的共享推理层。