2026-06-01 23:45 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

JetBrains 推出 Mellum2：一款 12B 參數的混合專家模型

JetBrains 發佈了 Mellum2，一個 12B 參數的混合專家（MoE）模型，每個 Token 僅激活 2.5B 參數，針對低延遲文本和代碼工作負載優化。該模型在路由、RAG、子代理和私有部署方面表現出色，推理速度比同類模型快 2 倍以上。採用 Apache 2.0 許可證發佈。

來源Hugging Face Blog

JetBrains 今日正式發佈了 Mellum2，這是一款擁有 120 億（12B）參數的混合專家（Mixture-of-Experts, MoE）模型。該模型從零開始在自然語言和代碼數據上訓練而成，每個 Token 僅激活約 25 億（2.5B）參數，從而實現了高吞吐、低延遲的推理性能。Mellum2 採用 Apache 2.0 許可證開源，旨在為多種 AI 工作負載提供高效且易於部署的解決方案。

Mellum2 的設計初衷是為現代 AI 系統常見的多模型調用場景提供支持，包括路由、檢索增強生成（RAG）、摘要生成、子代理任務以及私有化部署。與同類模型相比，Mellum2 在多項基準測試中表現出競爭力，同時推理速度提升超過 2 倍，使其非常適用於高吞吐的生產環境。

在架構方面，Mellum2 採用 MoE 架構，總參數量為 12B，但每次推理僅激活 2.5B 參數。這種設計在保持較高模型容量的同時，顯著降低了計算成本和延遲。與多模態模型不同，Mellum2 專注於文本和代碼領域，這種專業化使其在軟件工程任務上更加緊湊和高效。

JetBrains 團隊在技術報告中詳細展示了 Mellum2 在代碼生成、推理、科學和數學基準上的表現。報告指出，Mellum2 不僅性能優異，而且推理速度遠超同等規模的密集模型。

Mellum2 的主要用例包括：作為多模型系統中的輕量級路由和編排模型，用於提示分類、工具選擇和中間控制流；在延遲敏感的 RAG 流水線中，用於上下文壓縮、摘要和檢索後處理；作為子代理處理規劃、驗證、轉換等任務，減少對大模型的依賴；以及用於涉及專有代碼或內部數據的自託管環境。

JetBrains 強調，隨着 AI 系統日趨成熟，單一的前沿模型已難以滿足所有需求。生產系統往往需要多個專用組件協同工作，例如檢索器、路由器、代碼感知模型、驗證器、工具調用者和大型推理模型。Mellum2 被定位為一個“焦點”模型，專注於高頻任務，旨在使整個 AI 堆棧更快、更便宜、更可控。

對於正在構建軟件工程 AI 系統的開發者，無論是在 IDE、RAG 流水線、代理工作流還是私有基礎設施中，Mellum2 都提供了即刻可用的選擇。模型已在 Hugging Face 上開放下載，詳細技術報告可查看 arXiv。