AI News HubLIVE
公開文章 22採集文章 24可信度 84刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-06-26ID fireworks-blog運行狀態 已啟用

Official AI inference and model platform blog; confirm reuse terms before full body display.

最新公開文章

Cursor Composer 2 + Fireworks AI

Cursor 發佈了 Composer 2,這是一款為 Cursor 開發環境優化的編碼模型。它基於 Kimi 2.5,結合持續預訓練和大規模強化學習,實現了前沿的編碼性能,同時推理成本降低 6-10 倍。Fireworks AI 提供分佈式推理基礎設施,使強化學習規模化成為可能。

  • Composer 2 是 Cursor 為其開發環境量身定製的編碼模型,通過持續預訓練和強化學習提升性能。
  • 該模型在 CursorBench、Terminal-Bench 和 SWE-bench Multilingual 上取得領先分數。
站內正文

低成本前沿AI:開源工作者與閉源顧問的組合方案

本文介紹了一種開源工作者(如Kimi-K2.6或GLM-5.2)與閉源前沿顧問(Claude Opus 4.8)相結合的AI代理架構。該方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三個基準測試中均實現了穩定性能提升,同時將推理成本降低19%至67%。GLM-5.2搭配顧問在Terminal-Bench上達到與Opus相當的水平(約80%),在Legal Agent Bench上甚至超越Opus,成本卻低40%。

  • 開源工作者(Kimi-K2.6或GLM-5.2)端到端驅動任務,在最終階段諮詢閉源前沿模型(Claude Opus 4.8)一次。
  • SWE-bench Pro提升4至7個百分點,Terminal-Bench 2.1提升4至8個百分點,Legal Agent Bench提升1至4個百分點。
站內正文

Fireworks AI

Fireworks AI 宣佈自2026年7月1日起,所有自助服務賬户將遷移至預付費計費模式。用户可立即切換或等待自動遷移,預付費模式通過預先購買信用額度實現費用可預測,自動充值功能可避免服務中斷。簽約客户不受影響。

  • Fireworks AI 將於2026年7月1日起將自助服務賬户遷移至預付費計費。
  • 用户可選擇立即切換或等待自動遷移。
站內正文

GLM 5.2 在 Fireworks 推理平台上線,零日可用

智譜(Z.ai)發佈的最新開源模型 GLM 5.2 現已通過 Fireworks 推理平台提供。該模型在編程基準測試中表現領先,擁有100萬token的上下文窗口,適用於長週期代理任務,並採用MIT許可證。Fireworks 獨立驗證了模型性能,並強調其基礎設施優勢而非路由。

  • GLM 5.2 零日上線 Fireworks 推理平台,由智譜(Z.ai)發佈,該模型專為長週期編程任務設計。
  • 擁有100萬token的上下文窗口,在 GPQA-Diamond 基準測試中得分91.4%,經 Fireworks 獨立驗證。
站內正文

Fireworks 上的 Kimi K2.7 Code:更優的代理,更低的單任務成本,上線首日可用

月之暗面(Moonshot AI)發佈 Kimi K2.7 Code,這是 K2 系列的最新編程模型,現已通過 Fireworks AI 提供 Day-0 支持。相比 K2.6,該模型推理 token 減少約 30%,同時在編程評測中得分更高。推理 token 的減少顯著降低了代理工作流的單任務成本。Fireworks 提供標準、優先和快速(即將推出)三種服務層級,滿足不同可靠性和速度需求。

  • Kimi K2.7 Code 比 K2.6 少用約 30% 的推理 token,但在編程評測中表現更優。
  • 減少推理 token 通過複合效應降低了代理工作流的整體任務成本。
站內正文

Qwen 3.7 Plus 現已在 Fireworks 上線

阿里巴巴與 Fireworks 合作,在 Fireworks 基礎設施上獨家託管 Qwen 3.7 Plus 模型。該模型專為智能體循環設計,支持思考與非思考模式,上下文窗口達 262K token,並在多項基準測試中表現優異。Fireworks 作為推理提供商,提供高性能、低延遲的推理服務,數據零保留,SLA 達 99.9%。定價較前代便宜約 50%。

  • Qwen 3.7 Plus 是阿里巴巴的旗艦多模態模型,現通過 Fireworks 的 Serverless API 提供服務。
  • 模型專為智能體工作負載優化,支持思維鏈保留和多模態輸入。
站內正文

MiniMax M3 正式上線:長上下文 + 原生多模態,價格僅為 1/20

MiniMax 發佈旗艦模型 M3,具備超 50 萬 token 上下文窗口、原生多模態能力(文本、圖像、視頻),並採用創新的 MiniMax 稀疏注意力(MSA)架構,大幅提升推理效率。在 Fireworks 平台上,M3 價格僅為 M2.7 的 1/20,旨在為開源社區提供前沿水平的編碼和智能體能力。

  • MiniMax M3 支持超過 500K token 的上下文窗口,未來將擴展到 1M token。
  • 採用 MiniMax 稀疏注意力(MSA)架構,計算效率提升 4 倍以上。
站內正文

NVIDIA Nemotron 3 Ultra 在 Fireworks 上線,零日支持

NVIDIA 發佈 Nemotron 3 Ultra 開源模型,專為長時自主代理任務優化,擁有 550B 總參數、混合 Transformer-Mamba MoE 架構,可在 Fireworks 平台零日部署。該模型在代理任務上推理速度提升 5 倍,成本降低 30%,支持從訓練到生產的一體化流程。

  • Nemotron 3 Ultra 是專為長運行自主代理設計的開源模型,總參數 550B,活躍參數 55B。
  • 採用混合 Transformer-Mamba MoE 架構,支持高達 1M 上下文。
站內正文

開源代理與前沿顧問:通過訓練和引擎工程匹配前沿性能

Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了兩種系統級技術,以降低對單一前沿模型的依賴,同時以更低成本實現前沿級性能。混合引擎使用開源 GLM 5.1 工作器和 Claude Opus 4.7 顧問,在 100 個任務上以 368 美元成本實現 18/100 的全通過率,超過了僅使用 Opus 的 14/100(成本 954 美元)。對 Kimi K2.6 進行監督微調 (SFT) 和強化微調 (RFT) 後,全通過率以 84 美元成本達到 15/100,平均分從 0.863 提升至 0.886。

  • 混合引擎使用開源工作器和前沿顧問作為可調用工具,以低於端到端前沿模型的成本實現更高的全通過率。
  • Fireworks 上的後訓練:SFT 將全通過率從 11/100 提升至 15/100;RFT 將平均分從 0.863 提高至 0.886。
站內正文

Trilogy 藉助 Fireworks AI 驗證開源權重模型在企業工作負載中的表現

Trilogy 的 AI 卓越中心評估了 Fireworks AI 作為推理基礎設施,以標準化開源權重模型的使用,降低了成本並實現了十億級 token 的代理工作流。

  • Trilogy 採用 Fireworks AI 作為企業級開源權重模型的推理層。
  • 成本降至專有系統的約五分之一,避免了速率限制問題。
站內正文

智能體執行税:大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現,模型在結構化輸出可靠性上的差異導致高達22.9%的執行税(浪費的推理調用佔比)。Kimi K2.5實現零執行税,而Gemini 2.5 Flash在近五分之一的調用中出現JSON格式錯誤。這種執行開銷不僅增加了成本,還放大了延遲和任務失敗風險。

  • 智能體執行税衡量因無效結構化輸出而產生的冗餘推理調用比例,Gemini高達22.9%,而Kimi為零。
  • 結構化輸出可靠性是核心瓶頸:Gemini每5次調用就有1次解析失敗,導致87%的任務至少經歷一次重試。
站內正文

Serverless 2.0:三種推理運行方式,一個API

Fireworks AI推出Serverless 2.0,在無需預留容量的情況下,通過一個API提供標準、優先和快速三種推理服務路徑。標準路徑是默認的彈性共享基礎設施,優先路徑在高負載下提供更強的准入保障,快速路徑則實現約兩倍的生成令牌吞吐量。同時,該版本將負載丟棄和速率限制錯誤碼分離,明確區分429和503狀態碼,幫助開發者編寫正確的重試邏輯和警報配置。

  • Serverless 2.0 提供三種服務意圖:標準(默認)、優先(高負載下優先准入)和快速(高吞吐量)。
  • 優先路徑在峯值負載測試中實現了0%的503錯誤率,而標準路徑為0.082%。
站內正文

創新解決方案藉助 Fireworks AI 重構企業服務交付

作為 AWS 頂級合作伙伴,創新解決方案公司通過將推理層遷移至 Fireworks AI,實現了服務交付的變革。其 DarcyIQ 平台從內部效率工具發展為多智能體執行系統,合同週期從 30-45 天縮短至約 3 天,交付吞吐量翻倍,推理成本從線性增長轉變為可預測的單位經濟學。

  • 創新解決方案公司將推理層從 Anthropic 遷移至 Fireworks AI,降低了模型集成開銷,實現了穩定且成本可控的推理。
  • DarcyIQ 平台進化為多智能體執行系統,覆蓋銷售、範圍界定和交付全生命週期,合同週期縮短至約 3 天。
站內正文

Fireworks AI 收購 Hathora 以加速全球計算編排

Fireworks AI 宣佈收購專為低延遲實時工作負載打造全球容器編排平台的公司 Hathora。此次收購旨在將 Hathora 在遊戲領域積累的毫秒級延遲優化技術應用於 AI 推理,以提升全球推理速度和可靠性。

  • Fireworks AI 收購 Hathora,整合其容器編排技術。
  • Hathora 專注於毫秒級延遲優化,應用於 AI 推理。
站內正文

Fireworks AI 登陸 Microsoft Foundry,為 Azure 帶來頂級開源模型推理服務

Fireworks AI 宣佈在 Microsoft Foundry 上推出公開預覽版,將其高性能開源模型推理服務集成到 Azure 平台。該合作使開發者能夠通過統一的 Foundry 平台訪問 DeepSeek V3.2、Kimi K2.5 等領先開源模型,並支持自帶權重、按需擴展及企業級治理。

  • Fireworks AI 在 Microsoft Foundry 上提供公開預覽版,將高性能開源模型推理引入 Azure。
  • 首批模型包括 DeepSeek V3.2、Kimi K2.5、MiniMax M2.5 等,支持自帶權重和靈活定價。
站內正文

微調瓶頸並非算法問題

團隊在微調模型時,真正的瓶頸並非訓練算法,而是集成摩擦和迭代速度。本文通過多個案例(如Genspark、Cursor)展示瞭如何克服這些瓶頸,並展望了未來自動化的智能微調循環。

  • 微調的實際瓶頸是集成和數據主權問題,而非算法。
  • 快速迭代循環(從數週到小時)是實現成功微調的關鍵。
站內正文

擁有你的AI:Fireworks訓練預覽

Fireworks AI推出訓練預覽平台,支持從Qwen3 8B到Kimi K2.5(1萬億參數)的全參數訓練,提供訓練代理、託管訓練和訓練API三種界面。RL訓練在Vercel、Genspark、Cursor等案例中顯著提升性能,SFT和DPO也展現優異效果。平台保證訓練與推理的數值一致性,使團隊能夠擁有真正的模型所有權。

  • Fireworks訓練預覽平台支持全參數訓練,涵蓋從80億到1萬億參數的模型。
  • 三種界面滿足不同團隊需求:訓練代理(無代碼)、託管訓練(ML工程師)、訓練API(研究人員)。
站內正文

Fireworks如何通過安全分詞解決所有模型的提示注入問題

Fireworks推出了一種稱為安全分詞(safe_tokenization)的機制,通過在分詞階段防止用户輸入中的控制符被誤編碼為模型的控制令牌,從而解決提示注入問題。該機制作為API請求的一個布爾參數,對用户輸入無影響,僅防止控制符被解釋,同時保持聊天模板結構完整。文章詳細描述了問題成因、攻擊演示、工作原理及其對模型輸出的影響。

  • 提示注入源於用户輸入中的控制符與模型控制令牌共享同一字節流,導致用户文本可被誤解釋為控制令牌。
  • Fireworks的安全分詞機制通過在模型加載時掃描詞彙表,並在請求時按段編碼,確保用户內容中的控制符字符串被拆分為子詞,而非編碼為真實控制令牌。
站內正文

DeepSeek V4 Pro:為生產環境驗證前沿模型

DeepSeek V4 Pro因部署中推理追蹤損壞問題延遲發佈,Fireworks與多方協作修復後重新上線。本文詳述問題、調試過程及生產驗證方法。

  • DeepSeek V4 Pro在早期部署中暴露出推理追蹤退化為令牌級損壞的問題。
  • Fireworks聯合SGLang、vLLM和DeepSeek排查並修復了服務路徑正確性問題。
站內正文

MoE模型中的訓練與推理數值一致性:數值漂移的根源

本篇文章深入分析了混合專家(MoE)模型在訓練和推理過程中由於浮點數加法不滿足結合律而導致數值不一致的問題。通過Kimi K2.5和Qwen3.5-MoE的實際案例,揭示了全歸約拓撲差異、通信與計算融合、以及MoE多操作融合所帶來的數值漂移,並提出瞭解決方案和度量方法。

  • 浮點數加法非結合性是數值漂移的根本原因。
  • MoE模型由於路由選擇對微小變化敏感,數值漂移更為嚴重。
站內正文

DeepSeek-V4訓練系統筆記

DeepSeek-V4的訓練系統展示了架構、路由、獎勵建模、推理模式、蒸餾和代理執行如何融入訓練循環。關鍵要點包括:混合注意力機制(CSA和HCA)、基於舊路由器的預取路由穩定方案、通過不同RL配置訓練三種推理模式、用生成式獎勵模型替代標量獎勵、先訓練領域專家再通過全詞彙logit蒸餾合併、以及將運行時整合進訓練循環的代理訓練基礎設施。這些趨勢表明固定訓練配方正在讓位於可編程訓練系統。

  • DeepSeek-V4交替使用壓縮稀疏注意力和重度壓縮注意力,實現長上下文記憶層次。
  • 採用預期路由技術,用舊路由器預取路由決策,避免訓練不穩定。
站內正文

擴展與優化前沿模型訓練

Fireworks 發佈的博文介紹瞭如何通過訓練 SDK 和優化技術(如低精度量化、優化器狀態卸載、可組合並行策略、Blackwell 原生精度和流式流水線並行)來擴展和優化萬億參數 MoE 模型的訓練,目前支持多種前沿模型並提供 LoRA 和全參數訓練模式。

  • Fireworks 的訓練 SDK 支持 LoRA 和全參數訓練,覆蓋多種 MoE 和密集模型。
  • LoRA 訓練通過專家權重量化和優化器狀態卸載,將萬億參數模型擬合到單個節點。
站內正文

全部來源