Cursor Composer 2 + Fireworks AI
Cursor 发布了 Composer 2,这是一款为 Cursor 开发环境优化的编码模型。它基于 Kimi 2.5,结合持续预训练和大规模强化学习,实现了前沿的编码性能,同时推理成本降低 6-10 倍。Fireworks AI 提供分布式推理基础设施,使强化学习规模化成为可能。
- Composer 2 是 Cursor 为其开发环境量身定制的编码模型,通过持续预训练和强化学习提升性能。
- 该模型在 CursorBench、Terminal-Bench 和 SWE-bench Multilingual 上取得领先分数。
低成本前沿AI:开源工作者与闭源顾问的组合方案
本文介绍了一种开源工作者(如Kimi-K2.6或GLM-5.2)与闭源前沿顾问(Claude Opus 4.8)相结合的AI代理架构。该方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三个基准测试中均实现了稳定性能提升,同时将推理成本降低19%至67%。GLM-5.2搭配顾问在Terminal-Bench上达到与Opus相当的水平(约80%),在Legal Agent Bench上甚至超越Opus,成本却低40%。
- 开源工作者(Kimi-K2.6或GLM-5.2)端到端驱动任务,在最终阶段咨询闭源前沿模型(Claude Opus 4.8)一次。
- SWE-bench Pro提升4至7个百分点,Terminal-Bench 2.1提升4至8个百分点,Legal Agent Bench提升1至4个百分点。
Fireworks AI
Fireworks AI 宣布自2026年7月1日起,所有自助服务账户将迁移至预付费计费模式。用户可立即切换或等待自动迁移,预付费模式通过预先购买信用额度实现费用可预测,自动充值功能可避免服务中断。签约客户不受影响。
- Fireworks AI 将于2026年7月1日起将自助服务账户迁移至预付费计费。
- 用户可选择立即切换或等待自动迁移。
GLM 5.2 在 Fireworks 推理平台上线,零日可用
智谱(Z.ai)发布的最新开源模型 GLM 5.2 现已通过 Fireworks 推理平台提供。该模型在编程基准测试中表现领先,拥有100万token的上下文窗口,适用于长周期代理任务,并采用MIT许可证。Fireworks 独立验证了模型性能,并强调其基础设施优势而非路由。
- GLM 5.2 零日上线 Fireworks 推理平台,由智谱(Z.ai)发布,该模型专为长周期编程任务设计。
- 拥有100万token的上下文窗口,在 GPQA-Diamond 基准测试中得分91.4%,经 Fireworks 独立验证。
Fireworks 上的 Kimi K2.7 Code:更优的代理,更低的单任务成本,上线首日可用
月之暗面(Moonshot AI)发布 Kimi K2.7 Code,这是 K2 系列的最新编程模型,现已通过 Fireworks AI 提供 Day-0 支持。相比 K2.6,该模型推理 token 减少约 30%,同时在编程评测中得分更高。推理 token 的减少显著降低了代理工作流的单任务成本。Fireworks 提供标准、优先和快速(即将推出)三种服务层级,满足不同可靠性和速度需求。
- Kimi K2.7 Code 比 K2.6 少用约 30% 的推理 token,但在编程评测中表现更优。
- 减少推理 token 通过复合效应降低了代理工作流的整体任务成本。
Qwen 3.7 Plus 现已在 Fireworks 上线
阿里巴巴与 Fireworks 合作,在 Fireworks 基础设施上独家托管 Qwen 3.7 Plus 模型。该模型专为智能体循环设计,支持思考与非思考模式,上下文窗口达 262K token,并在多项基准测试中表现优异。Fireworks 作为推理提供商,提供高性能、低延迟的推理服务,数据零保留,SLA 达 99.9%。定价较前代便宜约 50%。
- Qwen 3.7 Plus 是阿里巴巴的旗舰多模态模型,现通过 Fireworks 的 Serverless API 提供服务。
- 模型专为智能体工作负载优化,支持思维链保留和多模态输入。
MiniMax M3 正式上线:长上下文 + 原生多模态,价格仅为 1/20
MiniMax 发布旗舰模型 M3,具备超 50 万 token 上下文窗口、原生多模态能力(文本、图像、视频),并采用创新的 MiniMax 稀疏注意力(MSA)架构,大幅提升推理效率。在 Fireworks 平台上,M3 价格仅为 M2.7 的 1/20,旨在为开源社区提供前沿水平的编码和智能体能力。
- MiniMax M3 支持超过 500K token 的上下文窗口,未来将扩展到 1M token。
- 采用 MiniMax 稀疏注意力(MSA)架构,计算效率提升 4 倍以上。
NVIDIA Nemotron 3 Ultra 在 Fireworks 上线,零日支持
NVIDIA 发布 Nemotron 3 Ultra 开源模型,专为长时自主代理任务优化,拥有 550B 总参数、混合 Transformer-Mamba MoE 架构,可在 Fireworks 平台零日部署。该模型在代理任务上推理速度提升 5 倍,成本降低 30%,支持从训练到生产的一体化流程。
- Nemotron 3 Ultra 是专为长运行自主代理设计的开源模型,总参数 550B,活跃参数 55B。
- 采用混合 Transformer-Mamba MoE 架构,支持高达 1M 上下文。
开源代理与前沿顾问:通过训练和引擎工程匹配前沿性能
Fireworks AI 和 Harvey 在 Legal Agent Benchmark (LAB) 上探索了两种系统级技术,以降低对单一前沿模型的依赖,同时以更低成本实现前沿级性能。混合引擎使用开源 GLM 5.1 工作器和 Claude Opus 4.7 顾问,在 100 个任务上以 368 美元成本实现 18/100 的全通过率,超过了仅使用 Opus 的 14/100(成本 954 美元)。对 Kimi K2.6 进行监督微调 (SFT) 和强化微调 (RFT) 后,全通过率以 84 美元成本达到 15/100,平均分从 0.863 提升至 0.886。
- 混合引擎使用开源工作器和前沿顾问作为可调用工具,以低于端到端前沿模型的成本实现更高的全通过率。
- Fireworks 上的后训练:SFT 将全通过率从 11/100 提升至 15/100;RFT 将平均分从 0.863 提高至 0.886。
Trilogy 借助 Fireworks AI 验证开源权重模型在企业工作负载中的表现
Trilogy 的 AI 卓越中心评估了 Fireworks AI 作为推理基础设施,以标准化开源权重模型的使用,降低了成本并实现了十亿级 token 的代理工作流。
- Trilogy 采用 Fireworks AI 作为企业级开源权重模型的推理层。
- 成本降至专有系统的约五分之一,避免了速率限制问题。
智能体执行税:大模型在浏览器自动化中的真正瓶颈
在720次浏览器代理任务基准测试中发现,模型在结构化输出可靠性上的差异导致高达22.9%的执行税(浪费的推理调用占比)。Kimi K2.5实现零执行税,而Gemini 2.5 Flash在近五分之一的调用中出现JSON格式错误。这种执行开销不仅增加了成本,还放大了延迟和任务失败风险。
- 智能体执行税衡量因无效结构化输出而产生的冗余推理调用比例,Gemini高达22.9%,而Kimi为零。
- 结构化输出可靠性是核心瓶颈:Gemini每5次调用就有1次解析失败,导致87%的任务至少经历一次重试。
Serverless 2.0:三种推理运行方式,一个API
Fireworks AI推出Serverless 2.0,在无需预留容量的情况下,通过一个API提供标准、优先和快速三种推理服务路径。标准路径是默认的弹性共享基础设施,优先路径在高负载下提供更强的准入保障,快速路径则实现约两倍的生成令牌吞吐量。同时,该版本将负载丢弃和速率限制错误码分离,明确区分429和503状态码,帮助开发者编写正确的重试逻辑和警报配置。
- Serverless 2.0 提供三种服务意图:标准(默认)、优先(高负载下优先准入)和快速(高吞吐量)。
- 优先路径在峰值负载测试中实现了0%的503错误率,而标准路径为0.082%。
创新解决方案借助 Fireworks AI 重构企业服务交付
作为 AWS 顶级合作伙伴,创新解决方案公司通过将推理层迁移至 Fireworks AI,实现了服务交付的变革。其 DarcyIQ 平台从内部效率工具发展为多智能体执行系统,合同周期从 30-45 天缩短至约 3 天,交付吞吐量翻倍,推理成本从线性增长转变为可预测的单位经济学。
- 创新解决方案公司将推理层从 Anthropic 迁移至 Fireworks AI,降低了模型集成开销,实现了稳定且成本可控的推理。
- DarcyIQ 平台进化为多智能体执行系统,覆盖销售、范围界定和交付全生命周期,合同周期缩短至约 3 天。
Fireworks AI 收购 Hathora 以加速全球计算编排
Fireworks AI 宣布收购专为低延迟实时工作负载打造全球容器编排平台的公司 Hathora。此次收购旨在将 Hathora 在游戏领域积累的毫秒级延迟优化技术应用于 AI 推理,以提升全球推理速度和可靠性。
- Fireworks AI 收购 Hathora,整合其容器编排技术。
- Hathora 专注于毫秒级延迟优化,应用于 AI 推理。
Fireworks AI 登陆 Microsoft Foundry,为 Azure 带来顶级开源模型推理服务
Fireworks AI 宣布在 Microsoft Foundry 上推出公开预览版,将其高性能开源模型推理服务集成到 Azure 平台。该合作使开发者能够通过统一的 Foundry 平台访问 DeepSeek V3.2、Kimi K2.5 等领先开源模型,并支持自带权重、按需扩展及企业级治理。
- Fireworks AI 在 Microsoft Foundry 上提供公开预览版,将高性能开源模型推理引入 Azure。
- 首批模型包括 DeepSeek V3.2、Kimi K2.5、MiniMax M2.5 等,支持自带权重和灵活定价。
微调瓶颈并非算法问题
团队在微调模型时,真正的瓶颈并非训练算法,而是集成摩擦和迭代速度。本文通过多个案例(如Genspark、Cursor)展示了如何克服这些瓶颈,并展望了未来自动化的智能微调循环。
- 微调的实际瓶颈是集成和数据主权问题,而非算法。
- 快速迭代循环(从数周到小时)是实现成功微调的关键。
拥有你的AI:Fireworks训练预览
Fireworks AI推出训练预览平台,支持从Qwen3 8B到Kimi K2.5(1万亿参数)的全参数训练,提供训练代理、托管训练和训练API三种界面。RL训练在Vercel、Genspark、Cursor等案例中显著提升性能,SFT和DPO也展现优异效果。平台保证训练与推理的数值一致性,使团队能够拥有真正的模型所有权。
- Fireworks训练预览平台支持全参数训练,涵盖从80亿到1万亿参数的模型。
- 三种界面满足不同团队需求:训练代理(无代码)、托管训练(ML工程师)、训练API(研究人员)。
Fireworks如何通过安全分词解决所有模型的提示注入问题
Fireworks推出了一种称为安全分词(safe_tokenization)的机制,通过在分词阶段防止用户输入中的控制符被误编码为模型的控制令牌,从而解决提示注入问题。该机制作为API请求的一个布尔参数,对用户输入无影响,仅防止控制符被解释,同时保持聊天模板结构完整。文章详细描述了问题成因、攻击演示、工作原理及其对模型输出的影响。
- 提示注入源于用户输入中的控制符与模型控制令牌共享同一字节流,导致用户文本可被误解释为控制令牌。
- Fireworks的安全分词机制通过在模型加载时扫描词汇表,并在请求时按段编码,确保用户内容中的控制符字符串被拆分为子词,而非编码为真实控制令牌。
DeepSeek V4 Pro:为生产环境验证前沿模型
DeepSeek V4 Pro因部署中推理追踪损坏问题延迟发布,Fireworks与多方协作修复后重新上线。本文详述问题、调试过程及生产验证方法。
- DeepSeek V4 Pro在早期部署中暴露出推理追踪退化为令牌级损坏的问题。
- Fireworks联合SGLang、vLLM和DeepSeek排查并修复了服务路径正确性问题。
MoE模型中的训练与推理数值一致性:数值漂移的根源
本篇文章深入分析了混合专家(MoE)模型在训练和推理过程中由于浮点数加法不满足结合律而导致数值不一致的问题。通过Kimi K2.5和Qwen3.5-MoE的实际案例,揭示了全归约拓扑差异、通信与计算融合、以及MoE多操作融合所带来的数值漂移,并提出了解决方案和度量方法。
- 浮点数加法非结合性是数值漂移的根本原因。
- MoE模型由于路由选择对微小变化敏感,数值漂移更为严重。
DeepSeek-V4训练系统笔记
DeepSeek-V4的训练系统展示了架构、路由、奖励建模、推理模式、蒸馏和代理执行如何融入训练循环。关键要点包括:混合注意力机制(CSA和HCA)、基于旧路由器的预取路由稳定方案、通过不同RL配置训练三种推理模式、用生成式奖励模型替代标量奖励、先训练领域专家再通过全词汇logit蒸馏合并、以及将运行时整合进训练循环的代理训练基础设施。这些趋势表明固定训练配方正在让位于可编程训练系统。
- DeepSeek-V4交替使用压缩稀疏注意力和重度压缩注意力,实现长上下文记忆层次。
- 采用预期路由技术,用旧路由器预取路由决策,避免训练不稳定。
扩展与优化前沿模型训练
Fireworks 发布的博文介绍了如何通过训练 SDK 和优化技术(如低精度量化、优化器状态卸载、可组合并行策略、Blackwell 原生精度和流式流水线并行)来扩展和优化万亿参数 MoE 模型的训练,目前支持多种前沿模型并提供 LoRA 和全参数训练模式。
- Fireworks 的训练 SDK 支持 LoRA 和全参数训练,覆盖多种 MoE 和密集模型。
- LoRA 训练通过专家权重量化和优化器状态卸载,将万亿参数模型拟合到单个节点。