AI News HubLIVE
站内改写

StepFun 发布 Step 3.7 Flash:面向编码智能体和搜索工作流的 198B MoE 视觉语言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,拥有约 11B 活跃参数、原生视觉能力和 256K 上下文窗口。在编码基准测试上相比前代大幅提升,支持 Advisor Mode 实现高性价比的智能体推理,并以 Apache 2.0 许可证开源。

文章情报

工程师进阶

要点

  • 198B MoE 视觉语言模型,活跃参数约 11B,上下文窗口 256K。
  • SWE-Bench Pro 得分 56.26%,较前代 51.3% 提升,且跨框架方差缩小。
  • Advisor Mode 在 SWE-Bench Verified 上达到 Claude Opus 4.6 性能的 97%,每任务成本仅 $0.19。
  • 以 Apache 2.0 许可证发布,提供 BF16、FP8、NVFP4 和 GGUF 权重。

为什么重要

这条新闻值得关注,因为198B MoE 视觉语言模型,活跃参数约 11B,上下文窗口 256K。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

StepFun 于 2026 年 5 月 29 日发布了 Step 3.7 Flash,这是一款面向智能体应用的多模态混合专家(MoE)模型。相比前代 Step 3.5 Flash,它新增了原生视觉输入能力,并显著提升了工具使用的可靠性。

Step 3.7 Flash 是一个稀疏 MoE 视觉语言模型,总参数量为 198B,其中语言骨干网络占 196B,视觉编码器(ViT)占 1.8B。推理时每个 token 仅激活约 11B 参数,这使得其推理计算量接近 11B 的密集模型,同时保留了 198B 的参数容量。模型支持 256K 的上下文窗口,吞吐量可达每秒 400 token,并提供低、中、高三种推理深度选择,开发者可根据延迟和成本需求灵活调整。

在编码能力方面,Step 3.7 Flash 在 SWE-Bench Pro 上取得了 56.26% 的得分,相比 Step 3.5 Flash 的 51.3% 提升了约 5 个百分点;在 Terminal-Bench 2.1 上得分 59.55%,前代为 53.37%。在 StepFun 内部的 Step-SWE-Bench 跨框架测试中,Step 3.5 Flash 的得分范围在 43% 到 73% 之间波动较大,而 Step 3.7 Flash 将这一范围收窄至 64.5% 到 71.5%,意味着在不同框架下表现更加稳定可预测。

Step 3.7 Flash 支持 Advisor Mode,这是 StepFun 对 Anthropic 提出的顾问策略的实现。在该模式下,模型自主运行完整的智能体循环——调用工具、读取结果、迭代执行——仅在规划或从重复失败中恢复等关键节点才会升级到更大的顾问模型。大部分推理过程保持在执行器(Flash)的成本水平。据 StepFun 内部数据,启用 Advisor Mode 后,Step 3.7 Flash 在 SWE-Bench Verified 上达到了 Claude Opus 4.6 性能的 97%,而每任务成本仅 $0.19,相比之下 Claude Opus 4.6 为 $1.76。

多模态方面,模型提供两条视觉工具路径:视觉搜索工具用于长尾实体或新兴概念的识别,在 SimpleVQA(带搜索)上得分 79.16%;Python 工具用于高分辨率图像的精细分析,在 V*(Python)上得分 95.29%,在 HR-Bench 4K 和 8K 上分别得分 89.13% 和 86.34%。有趣的是,StepFun 在测试中观察到模型在没有明确训练的情况下,自发地结合了视觉与非视觉工具,例如在生成前端代码后调用 GUI 渲染并检查结果,这被描述为涌现的组合工具使用能力。在 Android Daily 长时手机 UI 任务中,Step 3.7 Flash 得分为 61.87%,领先于 Kimi K2.6(53.36%)和 GLM 5V Turbo(51.68%),仅次于 Gemini 3 Flash(63.21%)。

在搜索和研究基准上,Step 3.7 Flash 将搜索集成到推理循环中,而非作为独立模块。其 HLE with Tools 准确率为 47.20%,高于 DeepSeek V4 Flash 的 45.10%;BrowseComp 准确率 75.82%,低于 Claude Opus 4.7 的 79.30%;DeepSearchQA F1 得分 92.82%,与 Kimi K2.6 的 92.50% 相当;ResearchRubrics 得分 71.68%,远超 GPT 5.5 的 61.50%。

定价方面,输入缓存未命中 $0.20/M token,缓存命中 $0.04/M token,输出 $1.15/M token。模型已通过 StepFun 平台、OpenRouter 和 NVIDIA NIM 提供 API 访问,即将支持 DeepInfra、Fireworks AI 和 Modal。开源权重以 Apache 2.0 许可证发布在 Hugging Face,支持 BF16、FP8、NVFP4 和 GGUF 量化格式,本地运行至少需要 120 GB 统一内存或显存。