2026-05-30 05:25 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

StepFun 釋出 Step 3.7 Flash：面向編碼智慧體和搜尋工作流的 198B MoE 視覺語言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型，擁有約 11B 活躍引數、原生視覺能力和 256K 上下文視窗。在編碼基準測試上相比前代大幅提升，支援 Advisor Mode 實現高價效比的智慧體推理，並以 Apache 2.0 許可證開源。

來源MarkTechPost作者: Asif Razzaq

StepFun 於 2026 年 5 月 29 日釋出了 Step 3.7 Flash，這是一款面向智慧體應用的多模態混合專家（MoE）模型。相比前代 Step 3.5 Flash，它新增了原生視覺輸入能力，並顯著提升了工具使用的可靠性。

Step 3.7 Flash 是一個稀疏 MoE 視覺語言模型，總引數量為 198B，其中語言骨幹網路佔 196B，視覺編碼器（ViT）佔 1.8B。推理時每個 token 僅啟用約 11B 引數，這使得其推理計算量接近 11B 的密集模型，同時保留了 198B 的引數容量。模型支援 256K 的上下文視窗，吞吐量可達每秒 400 token，並提供低、中、高三種推理深度選擇，開發者可根據延遲和成本需求靈活調整。

在編碼能力方面，Step 3.7 Flash 在 SWE-Bench Pro 上取得了 56.26% 的得分，相比 Step 3.5 Flash 的 51.3% 提升了約 5 個百分點；在 Terminal-Bench 2.1 上得分 59.55%，前代為 53.37%。在 StepFun 內部的 Step-SWE-Bench 跨框架測試中，Step 3.5 Flash 的得分範圍在 43% 到 73% 之間波動較大，而 Step 3.7 Flash 將這一範圍收窄至 64.5% 到 71.5%，意味著在不同框架下表現更加穩定可預測。

Step 3.7 Flash 支援 Advisor Mode，這是 StepFun 對 Anthropic 提出的顧問策略的實現。在該模式下，模型自主執行完整的智慧體迴圈——呼叫工具、讀取結果、迭代執行——僅在規劃或從重複失敗中恢復等關鍵節點才會升級到更大的顧問模型。大部分推理過程保持在執行器（Flash）的成本水平。據 StepFun 內部資料，啟用 Advisor Mode 後，Step 3.7 Flash 在 SWE-Bench Verified 上達到了 Claude Opus 4.6 效能的 97%，而每任務成本僅 $0.19，相比之下 Claude Opus 4.6 為 $1.76。

多模態方面，模型提供兩條視覺工具路徑：視覺搜尋工具用於長尾實體或新興概念的識別，在 SimpleVQA（帶搜尋）上得分 79.16%；Python 工具用於高解析度影像的精細分析，在 V*（Python）上得分 95.29%，在 HR-Bench 4K 和 8K 上分別得分 89.13% 和 86.34%。有趣的是，StepFun 在測試中觀察到模型在沒有明確訓練的情況下，自發地結合了視覺與非視覺工具，例如在生成前端程式碼後呼叫 GUI 渲染並檢查結果，這被描述為湧現的組合工具使用能力。在 Android Daily 長時手機 UI 任務中，Step 3.7 Flash 得分為 61.87%，領先於 Kimi K2.6（53.36%）和 GLM 5V Turbo（51.68%），僅次於 Gemini 3 Flash（63.21%）。

在搜尋和研究基準上，Step 3.7 Flash 將搜尋整合到推理迴圈中，而非作為獨立模組。其 HLE with Tools 準確率為 47.20%，高於 DeepSeek V4 Flash 的 45.10%；BrowseComp 準確率 75.82%，低於 Claude Opus 4.7 的 79.30%；DeepSearchQA F1 得分 92.82%，與 Kimi K2.6 的 92.50% 相當；ResearchRubrics 得分 71.68%，遠超 GPT 5.5 的 61.50%。

定價方面，輸入快取未命中 $0.20/M token，快取命中 $0.04/M token，輸出 $1.15/M token。模型已透過 StepFun 平臺、OpenRouter 和 NVIDIA NIM 提供 API 訪問，即將支援 DeepInfra、Fireworks AI 和 Modal。開源權重以 Apache 2.0 許可證釋出在 Hugging Face，支援 BF16、FP8、NVFP4 和 GGUF 量化格式，本地執行至少需要 120 GB 統一記憶體或視訊記憶體。