2026-06-02 16:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

JetBrains 发布 Mellum2：面向多模型 AI 流水线的 12B MoE 快速专用模型

JetBrains 开源了 Mellum2，一个 12B 参数的混合专家（MoE）模型，活跃参数仅 2.5B，训练于 10.6 万亿 token，专为软件工程任务设计。它作为多模型 AI 系统中的快速专用组件，适用于路由、RAG 流水线、子代理和本地部署等场景。

来源MarkTechPost作者: Asif Razzaq

JetBrains 近日发布了 Mellum2，这是其 Mellum 系列的第二代模型，采用混合专家（MoE）架构，总参数量 12B，但每个 token 仅激活 2.5B 参数。模型权重以 Apache 2.0 许可开源，可在 Hugging Face 获取。

Mellum2 定位为“焦点模型”，旨在作为大型 AI 系统中快速、专用的组件，而非替代前沿模型。它专为软件工程任务设计，涵盖代码生成、编辑、调试、多步推理、工具调用、函数调用、代理编码和对话式编程协助等能力。

架构亮点

28 层网络，隐藏层维度 2304。
64 个专家网络，每个 token 激活 8 个专家。
采用分组查询注意力（GQA），32 个查询头、4 个键值头。
滑动窗口注意力（SWA）应用于每四层中的三层，窗口大小 1024。
上下文长度达 131,072 token。
多 token 预测头（MTP）作为辅助预训练目标和内置草稿模型。
精度为 bfloat16，词表大小 98,304。
仅支持文本和代码，不支持多模态输入。

预训练与微调 Mellum2 经过约 10.6 万亿 token 的三阶段课程式预训练，数据混合从多样网络内容逐步转向精选代码和数学内容。训练使用 Muon 优化器和 FP8 混合精度，学习率采用 Warmup-Hold-Decay 调度。预训练后通过层选择性 YaRN 扩展上下文至 128K。

微调分两阶段：先进行监督微调（SFT），再使用可验证奖励的强化学习（RLVR）优化数学、编码、工具使用、指令遵循、推理和知识任务。

JetBrains 发布了六个检查点：预训练基础版（上下文扩展前和后）、SFT 指令版、SFT 思考版、RL 指令版和 RL 思考版。指令变体直接作答，适用于低延迟场景；思考变体输出显式推理过程，适用于复杂调试和多步规划。

基准测试表现 JetBrains 报告了自测结果，对比模型为 4B-14B 参数的开源模型。

编码：EvalPlus 78.4，MultiPL-E 67.1，LiveCodeBench v6 37.2。
工具调用：BFCL v3 66.3，BFCL v4 44.2。
数学：AIME 2025+2026 41.7，GSM-Plus 80.5。
知识对话：MMLU-Redux 78.1，GPQA Diamond 40.9，IFEval 75.8，MixEval 62.2。

在部分基准上，Mellum2 的表现弱于 Qwen3.5 9B 和 Ministral 3 14B，但其计算效率更高。

应用场景 JetBrains 推荐四个生产场景：

路由与编排：分析输入提示并选择合适模型或工具。
低延迟 RAG 流水线：以低延迟汇总检索到的上下文。
子代理：处理代理流水线中的重复或延迟敏感步骤。
私有本地部署：Apach 2.0 许可允许完全自托管。

优点与局限 优点：MoE 设计提供 2.5B 活跃参数的高计算效率；MTP 头实现内置推测解码；131K 上下文窗口；Apache 2.0 许可允许商业使用和微调；vLLM 支持工具调用。

局限：仅文本和代码，无多模态；LiveCodeBench v6 和 GPQA Diamond 等基准得分较低；不适用于前沿任务。

快速开始 用户可通过 vLLM 快速部署 Mellum2：

pip install vllm
vllm serve JetBrains/Mellum2-12B-A2.5B-Instruct --max-model-len 131072

启用工具调用：

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

也支持 Hugging Face Transformers 库。