AI News HubLIVE
站内改写2 分鐘閱讀

JetBrains 推出 Mellum2:一款 12B 參數的混合專家模型

JetBrains 發佈了 Mellum2,一個 12B 參數的混合專家(MoE)模型,每個 Token 僅激活 2.5B 參數,針對低延遲文本和代碼工作負載優化。該模型在路由、RAG、子代理和私有部署方面表現出色,推理速度比同類模型快 2 倍以上。採用 Apache 2.0 許可證發佈。

JetBrains 今日正式發佈了 Mellum2,這是一款擁有 120 億(12B)參數的混合專家(Mixture-of-Experts, MoE)模型。該模型從零開始在自然語言和代碼數據上訓練而成,每個 Token 僅激活約 25 億(2.5B)參數,從而實現了高吞吐、低延遲的推理性能。Mellum2 採用 Apache 2.0 許可證開源,旨在為多種 AI 工作負載提供高效且易於部署的解決方案。

Mellum2 的設計初衷是為現代 AI 系統常見的多模型調用場景提供支持,包括路由、檢索增強生成(RAG)、摘要生成、子代理任務以及私有化部署。與同類模型相比,Mellum2 在多項基準測試中表現出競爭力,同時推理速度提升超過 2 倍,使其非常適用於高吞吐的生產環境。

在架構方面,Mellum2 採用 MoE 架構,總參數量為 12B,但每次推理僅激活 2.5B 參數。這種設計在保持較高模型容量的同時,顯著降低了計算成本和延遲。與多模態模型不同,Mellum2 專注於文本和代碼領域,這種專業化使其在軟件工程任務上更加緊湊和高效。

JetBrains 團隊在技術報告中詳細展示了 Mellum2 在代碼生成、推理、科學和數學基準上的表現。報告指出,Mellum2 不僅性能優異,而且推理速度遠超同等規模的密集模型。

Mellum2 的主要用例包括:作為多模型系統中的輕量級路由和編排模型,用於提示分類、工具選擇和中間控制流;在延遲敏感的 RAG 流水線中,用於上下文壓縮、摘要和檢索後處理;作為子代理處理規劃、驗證、轉換等任務,減少對大模型的依賴;以及用於涉及專有代碼或內部數據的自託管環境。

JetBrains 強調,隨着 AI 系統日趨成熟,單一的前沿模型已難以滿足所有需求。生產系統往往需要多個專用組件協同工作,例如檢索器、路由器、代碼感知模型、驗證器、工具調用者和大型推理模型。Mellum2 被定位為一個“焦點”模型,專注於高頻任務,旨在使整個 AI 堆棧更快、更便宜、更可控。

對於正在構建軟件工程 AI 系統的開發者,無論是在 IDE、RAG 流水線、代理工作流還是私有基礎設施中,Mellum2 都提供了即刻可用的選擇。模型已在 Hugging Face 上開放下載,詳細技術報告可查看 arXiv。