JetBrains 推出 Mellum2:一款 12B 参数的混合专家模型
JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,每个 Token 仅激活 2.5B 参数,针对低延迟文本和代码工作负载优化。该模型在路由、RAG、子代理和私有部署方面表现出色,推理速度比同类模型快 2 倍以上。采用 Apache 2.0 许可证发布。
JetBrains 今日正式发布了 Mellum2,这是一款拥有 120 亿(12B)参数的混合专家(Mixture-of-Experts, MoE)模型。该模型从零开始在自然语言和代码数据上训练而成,每个 Token 仅激活约 25 亿(2.5B)参数,从而实现了高吞吐、低延迟的推理性能。Mellum2 采用 Apache 2.0 许可证开源,旨在为多种 AI 工作负载提供高效且易于部署的解决方案。
Mellum2 的设计初衷是为现代 AI 系统常见的多模型调用场景提供支持,包括路由、检索增强生成(RAG)、摘要生成、子代理任务以及私有化部署。与同类模型相比,Mellum2 在多项基准测试中表现出竞争力,同时推理速度提升超过 2 倍,使其非常适用于高吞吐的生产环境。
在架构方面,Mellum2 采用 MoE 架构,总参数量为 12B,但每次推理仅激活 2.5B 参数。这种设计在保持较高模型容量的同时,显著降低了计算成本和延迟。与多模态模型不同,Mellum2 专注于文本和代码领域,这种专业化使其在软件工程任务上更加紧凑和高效。
JetBrains 团队在技术报告中详细展示了 Mellum2 在代码生成、推理、科学和数学基准上的表现。报告指出,Mellum2 不仅性能优异,而且推理速度远超同等规模的密集模型。
Mellum2 的主要用例包括:作为多模型系统中的轻量级路由和编排模型,用于提示分类、工具选择和中间控制流;在延迟敏感的 RAG 流水线中,用于上下文压缩、摘要和检索后处理;作为子代理处理规划、验证、转换等任务,减少对大模型的依赖;以及用于涉及专有代码或内部数据的自托管环境。
JetBrains 强调,随着 AI 系统日趋成熟,单一的前沿模型已难以满足所有需求。生产系统往往需要多个专用组件协同工作,例如检索器、路由器、代码感知模型、验证器、工具调用者和大型推理模型。Mellum2 被定位为一个“焦点”模型,专注于高频任务,旨在使整个 AI 堆栈更快、更便宜、更可控。
对于正在构建软件工程 AI 系统的开发者,无论是在 IDE、RAG 流水线、代理工作流还是私有基础设施中,Mellum2 都提供了即刻可用的选择。模型已在 Hugging Face 上开放下载,详细技术报告可查看 arXiv。