StepFun 發佈 Step 3.7 Flash:面向編碼智能體和搜索工作流的 198B MoE 視覺語言模型
Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,擁有約 11B 活躍參數、原生視覺能力和 256K 上下文窗口。在編碼基準測試上相比前代大幅提升,支持 Advisor Mode 實現高性價比的智能體推理,並以 Apache 2.0 許可證開源。
文章情報
要點
- 198B MoE 視覺語言模型,活躍參數約 11B,上下文窗口 256K。
- SWE-Bench Pro 得分 56.26%,較前代 51.3% 提升,且跨框架方差縮小。
- Advisor Mode 在 SWE-Bench Verified 上達到 Claude Opus 4.6 性能的 97%,每任務成本僅 $0.19。
- 以 Apache 2.0 許可證發佈,提供 BF16、FP8、NVFP4 和 GGUF 權重。
為甚麼重要
這條新聞值得關注,因為198B MoE 視覺語言模型,活躍參數約 11B,上下文窗口 256K。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
StepFun 於 2026 年 5 月 29 日發佈了 Step 3.7 Flash,這是一款面向智能體應用的多模態混合專家(MoE)模型。相比前代 Step 3.5 Flash,它新增了原生視覺輸入能力,並顯著提升了工具使用的可靠性。
Step 3.7 Flash 是一個稀疏 MoE 視覺語言模型,總參數量為 198B,其中語言骨幹網絡佔 196B,視覺編碼器(ViT)佔 1.8B。推理時每個 token 僅激活約 11B 參數,這使得其推理計算量接近 11B 的密集模型,同時保留了 198B 的參數容量。模型支持 256K 的上下文窗口,吞吐量可達每秒 400 token,並提供低、中、高三種推理深度選擇,開發者可根據延遲和成本需求靈活調整。
在編碼能力方面,Step 3.7 Flash 在 SWE-Bench Pro 上取得了 56.26% 的得分,相比 Step 3.5 Flash 的 51.3% 提升了約 5 個百分點;在 Terminal-Bench 2.1 上得分 59.55%,前代為 53.37%。在 StepFun 內部的 Step-SWE-Bench 跨框架測試中,Step 3.5 Flash 的得分範圍在 43% 到 73% 之間波動較大,而 Step 3.7 Flash 將這一範圍收窄至 64.5% 到 71.5%,意味着在不同框架下表現更加穩定可預測。
Step 3.7 Flash 支持 Advisor Mode,這是 StepFun 對 Anthropic 提出的顧問策略的實現。在該模式下,模型自主運行完整的智能體循環——調用工具、讀取結果、迭代執行——僅在規劃或從重複失敗中恢復等關鍵節點才會升級到更大的顧問模型。大部分推理過程保持在執行器(Flash)的成本水平。據 StepFun 內部數據,啓用 Advisor Mode 後,Step 3.7 Flash 在 SWE-Bench Verified 上達到了 Claude Opus 4.6 性能的 97%,而每任務成本僅 $0.19,相比之下 Claude Opus 4.6 為 $1.76。
多模態方面,模型提供兩條視覺工具路徑:視覺搜索工具用於長尾實體或新興概念的識別,在 SimpleVQA(帶搜索)上得分 79.16%;Python 工具用於高分辨率圖像的精細分析,在 V*(Python)上得分 95.29%,在 HR-Bench 4K 和 8K 上分別得分 89.13% 和 86.34%。有趣的是,StepFun 在測試中觀察到模型在沒有明確訓練的情況下,自發地結合了視覺與非視覺工具,例如在生成前端代碼後調用 GUI 渲染並檢查結果,這被描述為湧現的組合工具使用能力。在 Android Daily 長時手機 UI 任務中,Step 3.7 Flash 得分為 61.87%,領先於 Kimi K2.6(53.36%)和 GLM 5V Turbo(51.68%),僅次於 Gemini 3 Flash(63.21%)。
在搜索和研究基準上,Step 3.7 Flash 將搜索集成到推理循環中,而非作為獨立模塊。其 HLE with Tools 準確率為 47.20%,高於 DeepSeek V4 Flash 的 45.10%;BrowseComp 準確率 75.82%,低於 Claude Opus 4.7 的 79.30%;DeepSearchQA F1 得分 92.82%,與 Kimi K2.6 的 92.50% 相當;ResearchRubrics 得分 71.68%,遠超 GPT 5.5 的 61.50%。
定價方面,輸入緩存未命中 $0.20/M token,緩存命中 $0.04/M token,輸出 $1.15/M token。模型已通過 StepFun 平台、OpenRouter 和 NVIDIA NIM 提供 API 訪問,即將支持 DeepInfra、Fireworks AI 和 Modal。開源權重以 Apache 2.0 許可證發佈在 Hugging Face,支持 BF16、FP8、NVFP4 和 GGUF 量化格式,本地運行至少需要 120 GB 統一內存或顯存。