擁有你的AI:Fireworks訓練預覽
Fireworks AI推出訓練預覽平臺,支援從Qwen3 8B到Kimi K2.5(1萬億引數)的全引數訓練,提供訓練代理、託管訓練和訓練API三種介面。RL訓練在Vercel、Genspark、Cursor等案例中顯著提升效能,SFT和DPO也展現優異效果。平臺保證訓練與推理的數值一致性,使團隊能夠擁有真正的模型所有權。
Fireworks AI 今日宣佈其訓練平臺進入預覽階段,這是一個端到端的解決方案,允許團隊在大規模範圍內訓練和部署前沿模型。該平臺提供三種操作介面,以適應不同技術背景的團隊:訓練代理(Training Agent)面向無需管理機器學習基礎設施的產品團隊,託管訓練(Managed Training)面向希望獲得可靠基礎設施的ML工程師,而訓練API(Training API)則面向需要完全演算法控制的研究團隊。所有介面均執行在相同的底層基礎設施之上,這些基礎設施已經為Cursor、Vercel、Genspark等公司的生產級推理提供服務。
平臺的核心能力包括全引數訓練,覆蓋從Qwen3 8B到Kimi K2.5(擁有1萬億引數)的模型範圍。此外,還支援自定義損失函式(透過訓練API)、多LoRA服務(Multi-LoRA serving)以及訓練代理,後者允許使用者透過描述任務並上傳資料來部署模型。這些功能使得團隊能夠根據自身需求選擇適當的抽象層級。
在具體應用方面,Vercel 利用Fireworks的強化學習(RL)基礎設施為其v0產品構建了自定義的“自動修復”模型。該模型能夠在輸出流中檢測錯誤並自動修正,無需第二次呼叫,實現了93%的無錯誤生成率,遠超競爭模型,同時將端到端延遲降低至原專有模型的1/40,吞吐量超過每秒8000字元。Vercel的CTO Malte Ubl 評價道:“使用Fireworks的微調強化學習模型,我們的表現顯著優於現有技術。在我們的評估中,Sonnet 3.5的編譯成功率為62%,而我們將無錯誤生成率提升到了90%以上。”
Genspark 則將前沿RL應用於Kimi K2(一個1萬億引數的開源模型),用於深度研究代理,這些代理需要多源調查和鏈式工具呼叫。RL訓練使工具呼叫次數增加了33%,並以比頂尖閉源模型低50%的成本實現了更優效能。Genspark的CTO Kay Zhu 表示:“Fireworks使我們能夠掌控自己的AI旅程,並在短短四周內解鎖了更高質量。”
Cursor 在全球3至4個叢集上執行了Composer 2(目前在CursorBench上評分最高)的RL實驗。訓練和生產流量透過增量壓縮權重更新共享同一GPU池,表明前沿RL並不需要單一巨型叢集。傳統上認為需要共置RDMA硬體的假設源於每次更新需要移動完整的1萬億位元組檢查點,而Fireworks的方案無需如此。Cursor的研究員Federico Cassano 指出:“我們的RL推理因此實現了彈性全域性擴充套件。當生產流量低時,我們擴充套件RL計算,當生產流量高時,我們縮減RL。”
除了RL,監督微調(SFT)也展現出顯著優勢。在客戶支援資料集上,微調後的Qwen3 8B Instruct模型F1得分為76.38%,而領先閉源模型為69.40%。實際上,Qwen3 0.6B、4B和30B在該基準測試上均以更低成本超越了閉源模型。在生產客戶運營資料集上,微調後的Qwen3 30B達到91.71%,而閉源模型為82.48%。
在分類任務中,微調同樣表現優異。在工單路由任務上,微調後的Qwen3 30B達到80.91%,比Claude Haiku(61.47%)高出19個百分點,比Gemini Flash(71.93%)高出9個百分點。不同規模的微調Qwen3模型均能匹配或超越Gemini Flash,且產生零無效輸出(Claude Haiku為15%),同時在p50-p95延遲上快2.5至20倍。
直接偏好最佳化(DPO)技術則適用於難以標註正確性但易於表達偏好的任務,如結構化輸出、合規判斷和領域特定對齊。DPO能夠縮小有能力和值得信賴的模型之間的差距。
Fireworks訓練平臺的一項關鍵優勢是確保訓練和推理之間的數值一致性。由於MoE(混合專家)模型在數值上比密集模型更脆弱,小小的隱藏狀態變化可能導致專家選擇翻轉並級聯到後續層。Fireworks透過在生產環境中除錯這些邊緣情況,保證了訓練和推理對數機率之間的KL散度低於0.01,從而確保評估指標反映的是模型質量而非數值差異。
目前,Fireworks訓練預覽已開放。感興趣的團隊可以從其網站開始體驗。