AI News HubLIVE
站内改写2 分钟阅读

拥有你的AI:Fireworks训练预览

Fireworks AI推出训练预览平台,支持从Qwen3 8B到Kimi K2.5(1万亿参数)的全参数训练,提供训练代理、托管训练和训练API三种界面。RL训练在Vercel、Genspark、Cursor等案例中显著提升性能,SFT和DPO也展现优异效果。平台保证训练与推理的数值一致性,使团队能够拥有真正的模型所有权。

Fireworks AI 今日宣布其训练平台进入预览阶段,这是一个端到端的解决方案,允许团队在大规模范围内训练和部署前沿模型。该平台提供三种操作界面,以适应不同技术背景的团队:训练代理(Training Agent)面向无需管理机器学习基础设施的产品团队,托管训练(Managed Training)面向希望获得可靠基础设施的ML工程师,而训练API(Training API)则面向需要完全算法控制的研究团队。所有界面均运行在相同的底层基础设施之上,这些基础设施已经为Cursor、Vercel、Genspark等公司的生产级推理提供服务。

平台的核心能力包括全参数训练,覆盖从Qwen3 8B到Kimi K2.5(拥有1万亿参数)的模型范围。此外,还支持自定义损失函数(通过训练API)、多LoRA服务(Multi-LoRA serving)以及训练代理,后者允许用户通过描述任务并上传数据来部署模型。这些功能使得团队能够根据自身需求选择适当的抽象层级。

在具体应用方面,Vercel 利用Fireworks的强化学习(RL)基础设施为其v0产品构建了自定义的“自动修复”模型。该模型能够在输出流中检测错误并自动修正,无需第二次调用,实现了93%的无错误生成率,远超竞争模型,同时将端到端延迟降低至原专有模型的1/40,吞吐量超过每秒8000字符。Vercel的CTO Malte Ubl 评价道:“使用Fireworks的微调强化学习模型,我们的表现显著优于现有技术。在我们的评估中,Sonnet 3.5的编译成功率为62%,而我们将无错误生成率提升到了90%以上。”

Genspark 则将前沿RL应用于Kimi K2(一个1万亿参数的开源模型),用于深度研究代理,这些代理需要多源调查和链式工具调用。RL训练使工具调用次数增加了33%,并以比顶尖闭源模型低50%的成本实现了更优性能。Genspark的CTO Kay Zhu 表示:“Fireworks使我们能够掌控自己的AI旅程,并在短短四周内解锁了更高质量。”

Cursor 在全球3至4个集群上运行了Composer 2(目前在CursorBench上评分最高)的RL实验。训练和生产流量通过增量压缩权重更新共享同一GPU池,表明前沿RL并不需要单一巨型集群。传统上认为需要共置RDMA硬件的假设源于每次更新需要移动完整的1万亿字节检查点,而Fireworks的方案无需如此。Cursor的研究员Federico Cassano 指出:“我们的RL推理因此实现了弹性全局扩展。当生产流量低时,我们扩展RL计算,当生产流量高时,我们缩减RL。”

除了RL,监督微调(SFT)也展现出显著优势。在客户支持数据集上,微调后的Qwen3 8B Instruct模型F1得分为76.38%,而领先闭源模型为69.40%。实际上,Qwen3 0.6B、4B和30B在该基准测试上均以更低成本超越了闭源模型。在生产客户运营数据集上,微调后的Qwen3 30B达到91.71%,而闭源模型为82.48%。

在分类任务中,微调同样表现优异。在工单路由任务上,微调后的Qwen3 30B达到80.91%,比Claude Haiku(61.47%)高出19个百分点,比Gemini Flash(71.93%)高出9个百分点。不同规模的微调Qwen3模型均能匹配或超越Gemini Flash,且产生零无效输出(Claude Haiku为15%),同时在p50-p95延迟上快2.5至20倍。

直接偏好优化(DPO)技术则适用于难以标注正确性但易于表达偏好的任务,如结构化输出、合规判断和领域特定对齐。DPO能够缩小有能力和值得信赖的模型之间的差距。

Fireworks训练平台的一项关键优势是确保训练和推理之间的数值一致性。由于MoE(混合专家)模型在数值上比密集模型更脆弱,小小的隐藏状态变化可能导致专家选择翻转并级联到后续层。Fireworks通过在生产环境中调试这些边缘情况,保证了训练和推理对数概率之间的KL散度低于0.01,从而确保评估指标反映的是模型质量而非数值差异。

目前,Fireworks训练预览已开放。感兴趣的团队可以从其网站开始体验。