2026-06-13 13:37 UTC+8站内改写1 分钟阅读更新: 2026-06-27 08:25 UTC+8

Qwen 3.7 Plus 现已在 Fireworks 上线

阿里巴巴与 Fireworks 合作，在 Fireworks 基础设施上独家托管 Qwen 3.7 Plus 模型。该模型专为智能体循环设计，支持思考与非思考模式，上下文窗口达 262K token，并在多项基准测试中表现优异。Fireworks 作为推理提供商，提供高性能、低延迟的推理服务，数据零保留，SLA 达 99.9%。定价较前代便宜约 50%。

来源Fireworks AI Blog

阿里巴巴已与 Fireworks 合作，将其旗舰多模态模型 Qwen 3.7 Plus 托管在 Fireworks 基础设施上，并通过 Serverless API 提供服务。该模型于 6 月 1 日发布后，已在多个平台上线，但此次合作不同寻常：Fireworks 是独家推理提供商，直接运行模型权重，而非通过 API 路由器中转。

Qwen 3.7 Plus 被定位为“智能体模型”，而非传统的聊天模型。它能够理解图像和文本，支持思考与非思考模式，在需要时进行推理，不需要时跳过。模型上下文窗口高达 262K token，特别适合长周期智能体任务，例如包含截图、工具调用和缓存上下文的复杂工作流。Fireworks 支持保留跨轮次的思维链，开发者可通过设置 reasoning_history="preserved" 来实现。

在定价方面，Qwen 3.7 Plus 的 Serverless 价格为每百万输入 token 0.50 美元，缓存输入 token 仅 0.10 美元，输出 token 3.00 美元。批量处理价格再降 50%，结果在 24 小时内返回。相比之下，该模型定价比前代 Qwen 3.6 Plus 便宜约 50%。Fireworks 强调，作为推理提供商，他们控制整个服务路径，承诺零数据保留策略和 99.9% 的正常运行时间 SLA。

基准测试显示，Qwen 3.7 Plus 开启思考模式时，在 AIME 2025 上达到了旗舰版 Max 的分数（14/15），速度约为后者的三倍。端到端吞吐量比 Qwen 3.6 Plus 快 3.55 倍。在编码智能体任务中，模型在多文件开发、调试和问题解决工作流上表现出色。

开发者可以通过 Fireworks 的 Playground、Serverless API 或集成到 Claude Code、OpenCode 等工具中开始使用。API 兼容 OpenAI 和 Anthropic 格式。Fireworks 还提供对 Qwen 3.7 Max 的早期访问申请，以及按需提供的微调支持。

Qwen 3.7 Plus 的权重为授权许可，不公开发布在 HuggingFace 上。Fireworks 是唯一直接托管这些权重的推理提供商。对于偏好开源模型的用户，Fireworks 也同时提供 Qwen 8B 等开源模型。