2026-05-15 10:28 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

拥有你的AI：Fireworks训练预览

Fireworks AI推出训练预览平台，支持从Qwen3 8B到Kimi K2.5（1万亿参数）的全参数训练，提供训练代理、托管训练和训练API三种界面。RL训练在Vercel、Genspark、Cursor等案例中显著提升性能，SFT和DPO也展现优异效果。平台保证训练与推理的数值一致性，使团队能够拥有真正的模型所有权。

来源Fireworks AI Blog

Fireworks AI 今日宣布其训练平台进入预览阶段，这是一个端到端的解决方案，允许团队在大规模范围内训练和部署前沿模型。该平台提供三种操作界面，以适应不同技术背景的团队：训练代理（Training Agent）面向无需管理机器学习基础设施的产品团队，托管训练（Managed Training）面向希望获得可靠基础设施的ML工程师，而训练API（Training API）则面向需要完全算法控制的研究团队。所有界面均运行在相同的底层基础设施之上，这些基础设施已经为Cursor、Vercel、Genspark等公司的生产级推理提供服务。

平台的核心能力包括全参数训练，覆盖从Qwen3 8B到Kimi K2.5（拥有1万亿参数）的模型范围。此外，还支持自定义损失函数（通过训练API）、多LoRA服务（Multi-LoRA serving）以及训练代理，后者允许用户通过描述任务并上传数据来部署模型。这些功能使得团队能够根据自身需求选择适当的抽象层级。

在具体应用方面，Vercel 利用Fireworks的强化学习（RL）基础设施为其v0产品构建了自定义的“自动修复”模型。该模型能够在输出流中检测错误并自动修正，无需第二次调用，实现了93%的无错误生成率，远超竞争模型，同时将端到端延迟降低至原专有模型的1/40，吞吐量超过每秒8000字符。Vercel的CTO Malte Ubl 评价道：“使用Fireworks的微调强化学习模型，我们的表现显著优于现有技术。在我们的评估中，Sonnet 3.5的编译成功率为62%，而我们将无错误生成率提升到了90%以上。”

Genspark 则将前沿RL应用于Kimi K2（一个1万亿参数的开源模型），用于深度研究代理，这些代理需要多源调查和链式工具调用。RL训练使工具调用次数增加了33%，并以比顶尖闭源模型低50%的成本实现了更优性能。Genspark的CTO Kay Zhu 表示：“Fireworks使我们能够掌控自己的AI旅程，并在短短四周内解锁了更高质量。”

Cursor 在全球3至4个集群上运行了Composer 2（目前在CursorBench上评分最高）的RL实验。训练和生产流量通过增量压缩权重更新共享同一GPU池，表明前沿RL并不需要单一巨型集群。传统上认为需要共置RDMA硬件的假设源于每次更新需要移动完整的1万亿字节检查点，而Fireworks的方案无需如此。Cursor的研究员Federico Cassano 指出：“我们的RL推理因此实现了弹性全局扩展。当生产流量低时，我们扩展RL计算，当生产流量高时，我们缩减RL。”

除了RL，监督微调（SFT）也展现出显著优势。在客户支持数据集上，微调后的Qwen3 8B Instruct模型F1得分为76.38%，而领先闭源模型为69.40%。实际上，Qwen3 0.6B、4B和30B在该基准测试上均以更低成本超越了闭源模型。在生产客户运营数据集上，微调后的Qwen3 30B达到91.71%，而闭源模型为82.48%。

在分类任务中，微调同样表现优异。在工单路由任务上，微调后的Qwen3 30B达到80.91%，比Claude Haiku（61.47%）高出19个百分点，比Gemini Flash（71.93%）高出9个百分点。不同规模的微调Qwen3模型均能匹配或超越Gemini Flash，且产生零无效输出（Claude Haiku为15%），同时在p50-p95延迟上快2.5至20倍。

直接偏好优化（DPO）技术则适用于难以标注正确性但易于表达偏好的任务，如结构化输出、合规判断和领域特定对齐。DPO能够缩小有能力和值得信赖的模型之间的差距。

Fireworks训练平台的一项关键优势是确保训练和推理之间的数值一致性。由于MoE（混合专家）模型在数值上比密集模型更脆弱，小小的隐藏状态变化可能导致专家选择翻转并级联到后续层。Fireworks通过在生产环境中调试这些边缘情况，保证了训练和推理对数概率之间的KL散度低于0.01，从而确保评估指标反映的是模型质量而非数值差异。

目前，Fireworks训练预览已开放。感兴趣的团队可以从其网站开始体验。