2026-06-01 23:45 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

JetBrains 推出 Mellum2：一款 12B 参数的混合专家模型

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，每个 Token 仅激活 2.5B 参数，针对低延迟文本和代码工作负载优化。该模型在路由、RAG、子代理和私有部署方面表现出色，推理速度比同类模型快 2 倍以上。采用 Apache 2.0 许可证发布。

来源Hugging Face Blog

JetBrains 今日正式发布了 Mellum2，这是一款拥有 120 亿（12B）参数的混合专家（Mixture-of-Experts, MoE）模型。该模型从零开始在自然语言和代码数据上训练而成，每个 Token 仅激活约 25 亿（2.5B）参数，从而实现了高吞吐、低延迟的推理性能。Mellum2 采用 Apache 2.0 许可证开源，旨在为多种 AI 工作负载提供高效且易于部署的解决方案。

Mellum2 的设计初衷是为现代 AI 系统常见的多模型调用场景提供支持，包括路由、检索增强生成（RAG）、摘要生成、子代理任务以及私有化部署。与同类模型相比，Mellum2 在多项基准测试中表现出竞争力，同时推理速度提升超过 2 倍，使其非常适用于高吞吐的生产环境。

在架构方面，Mellum2 采用 MoE 架构，总参数量为 12B，但每次推理仅激活 2.5B 参数。这种设计在保持较高模型容量的同时，显著降低了计算成本和延迟。与多模态模型不同，Mellum2 专注于文本和代码领域，这种专业化使其在软件工程任务上更加紧凑和高效。

JetBrains 团队在技术报告中详细展示了 Mellum2 在代码生成、推理、科学和数学基准上的表现。报告指出，Mellum2 不仅性能优异，而且推理速度远超同等规模的密集模型。

Mellum2 的主要用例包括：作为多模型系统中的轻量级路由和编排模型，用于提示分类、工具选择和中间控制流；在延迟敏感的 RAG 流水线中，用于上下文压缩、摘要和检索后处理；作为子代理处理规划、验证、转换等任务，减少对大模型的依赖；以及用于涉及专有代码或内部数据的自托管环境。

JetBrains 强调，随着 AI 系统日趋成熟，单一的前沿模型已难以满足所有需求。生产系统往往需要多个专用组件协同工作，例如检索器、路由器、代码感知模型、验证器、工具调用者和大型推理模型。Mellum2 被定位为一个“焦点”模型，专注于高频任务，旨在使整个 AI 堆栈更快、更便宜、更可控。

对于正在构建软件工程 AI 系统的开发者，无论是在 IDE、RAG 流水线、代理工作流还是私有基础设施中，Mellum2 都提供了即刻可用的选择。模型已在 Hugging Face 上开放下载，详细技术报告可查看 arXiv。