HEBATRON:一款面向希伯來語的開源權重混合專家語言模型
研究者推出了Hebatron,一款基於NVIDIA Nemotron-3稀疏MoE架構的希伯來語專用開源權重大語言模型。該模型在每輪前向傳播中僅啟用30億引數,卻能達到73.8%的希伯來語推理準確率,超越了之前的模型,並與Gemma-3-27B等更大規模的模型相抗衡,同時提供約9倍的推理吞吐量和高達65,536個token的上下文長度。
文章情報
要點
- 首個支援原生長上下文的希伯來語開源權重MoE模型。
- 採用三階段由易到難的課程學習策略,配合反遺忘錨定和200萬雙語樣本的微調。
- 希伯來語推理平均分73.8%,優於DictaLM-3.0-24B-Thinking(68.9%)。
- 僅啟用30億引數(總引數量300億),實現約9倍推理吞吐量。
為什麼重要
這條新聞值得關注,因為首個支援原生長上下文的希伯來語開源權重MoE模型。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Hebatron是一款專為希伯來語設計的開源權重大語言模型,基於NVIDIA Nemotron-3稀疏混合專家(MoE)架構構建。該模型的總引數量為300億,但每次前向傳播僅啟用30億引數,從而實現了高效推理。訓練過程採用三階段由易到難的課程學習策略,並輔以連續的反遺忘錨定機制,隨後在200萬條希伯來語-英語雙語樣本上進行監督微調。研究團隊發現,課程順序本身就能帶來3個百分點的基準效能提升。
在效能方面,Hebatron在希伯來語推理任務上取得了73.8%的平均準確率,超越了此前的最佳模型DictaLM-3.0-24B-Thinking(68.9%),並在GSM8K-HE和以色列常識問答等基準測試中與Gemma-3-27B-IT不相上下。得益於MoE架構,Hebatron在保持原生65,536個token上下文長度的同時,推理吞吐量約為同等規模模型的9倍。據研究者稱,這是首次將Nemotron-3架構適配到特定語言的嘗試,也是首個支援原生長上下文的希伯來語開源MoE模型。模型權重現已公開,以促進希伯來語及閃米特語自然語言處理的進一步研究。
Hebatron的釋出對於低資源語言NLP領域具有重要意義。它展示瞭如何將高效MoE架構用於特定語言,在保持效能的同時大幅降低推理成本。未來,該模型有望推動希伯來語語音助手、機器翻譯和資訊檢索等應用的發展。此外,其開源特性鼓勵社群參與改進和適配,可能為其他閃米特語類似模型奠定基礎。研究者計劃進一步最佳化訓練策略並擴充套件模型能力,使其更廣泛地服務於學術和工業界。