2026-05-15 10:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

擁有你的AI：Fireworks訓練預覽

Fireworks AI推出訓練預覽平臺，支援從Qwen3 8B到Kimi K2.5（1萬億引數）的全引數訓練，提供訓練代理、託管訓練和訓練API三種介面。RL訓練在Vercel、Genspark、Cursor等案例中顯著提升效能，SFT和DPO也展現優異效果。平臺保證訓練與推理的數值一致性，使團隊能夠擁有真正的模型所有權。

來源Fireworks AI Blog

Fireworks AI 今日宣佈其訓練平臺進入預覽階段，這是一個端到端的解決方案，允許團隊在大規模範圍內訓練和部署前沿模型。該平臺提供三種操作介面，以適應不同技術背景的團隊：訓練代理（Training Agent）面向無需管理機器學習基礎設施的產品團隊，託管訓練（Managed Training）面向希望獲得可靠基礎設施的ML工程師，而訓練API（Training API）則面向需要完全演算法控制的研究團隊。所有介面均執行在相同的底層基礎設施之上，這些基礎設施已經為Cursor、Vercel、Genspark等公司的生產級推理提供服務。

平臺的核心能力包括全引數訓練，覆蓋從Qwen3 8B到Kimi K2.5（擁有1萬億引數）的模型範圍。此外，還支援自定義損失函式（透過訓練API）、多LoRA服務（Multi-LoRA serving）以及訓練代理，後者允許使用者透過描述任務並上傳資料來部署模型。這些功能使得團隊能夠根據自身需求選擇適當的抽象層級。

在具體應用方面，Vercel 利用Fireworks的強化學習（RL）基礎設施為其v0產品構建了自定義的“自動修復”模型。該模型能夠在輸出流中檢測錯誤並自動修正，無需第二次呼叫，實現了93%的無錯誤生成率，遠超競爭模型，同時將端到端延遲降低至原專有模型的1/40，吞吐量超過每秒8000字元。Vercel的CTO Malte Ubl 評價道：“使用Fireworks的微調強化學習模型，我們的表現顯著優於現有技術。在我們的評估中，Sonnet 3.5的編譯成功率為62%，而我們將無錯誤生成率提升到了90%以上。”

Genspark 則將前沿RL應用於Kimi K2（一個1萬億引數的開源模型），用於深度研究代理，這些代理需要多源調查和鏈式工具呼叫。RL訓練使工具呼叫次數增加了33%，並以比頂尖閉源模型低50%的成本實現了更優效能。Genspark的CTO Kay Zhu 表示：“Fireworks使我們能夠掌控自己的AI旅程，並在短短四周內解鎖了更高質量。”

Cursor 在全球3至4個叢集上執行了Composer 2（目前在CursorBench上評分最高）的RL實驗。訓練和生產流量透過增量壓縮權重更新共享同一GPU池，表明前沿RL並不需要單一巨型叢集。傳統上認為需要共置RDMA硬體的假設源於每次更新需要移動完整的1萬億位元組檢查點，而Fireworks的方案無需如此。Cursor的研究員Federico Cassano 指出：“我們的RL推理因此實現了彈性全域性擴充套件。當生產流量低時，我們擴充套件RL計算，當生產流量高時，我們縮減RL。”

除了RL，監督微調（SFT）也展現出顯著優勢。在客戶支援資料集上，微調後的Qwen3 8B Instruct模型F1得分為76.38%，而領先閉源模型為69.40%。實際上，Qwen3 0.6B、4B和30B在該基準測試上均以更低成本超越了閉源模型。在生產客戶運營資料集上，微調後的Qwen3 30B達到91.71%，而閉源模型為82.48%。

在分類任務中，微調同樣表現優異。在工單路由任務上，微調後的Qwen3 30B達到80.91%，比Claude Haiku（61.47%）高出19個百分點，比Gemini Flash（71.93%）高出9個百分點。不同規模的微調Qwen3模型均能匹配或超越Gemini Flash，且產生零無效輸出（Claude Haiku為15%），同時在p50-p95延遲上快2.5至20倍。

直接偏好最佳化（DPO）技術則適用於難以標註正確性但易於表達偏好的任務，如結構化輸出、合規判斷和領域特定對齊。DPO能夠縮小有能力和值得信賴的模型之間的差距。

Fireworks訓練平臺的一項關鍵優勢是確保訓練和推理之間的數值一致性。由於MoE（混合專家）模型在數值上比密集模型更脆弱，小小的隱藏狀態變化可能導致專家選擇翻轉並級聯到後續層。Fireworks透過在生產環境中除錯這些邊緣情況，保證了訓練和推理對數機率之間的KL散度低於0.01，從而確保評估指標反映的是模型質量而非數值差異。

目前，Fireworks訓練預覽已開放。感興趣的團隊可以從其網站開始體驗。