2026-05-13站内改写

HEBATRON：一款面向希伯來語的開源權重混合專家語言模型

研究者推出了Hebatron，一款基於NVIDIA Nemotron-3稀疏MoE架構的希伯來語專用開源權重大語言模型。該模型在每輪前向傳播中僅啟用30億引數，卻能達到73.8%的希伯來語推理準確率，超越了之前的模型，並與Gemma-3-27B等更大規模的模型相抗衡，同時提供約9倍的推理吞吐量和高達65,536個token的上下文長度。

文章情報

工程師進階

要點

首個支援原生長上下文的希伯來語開源權重MoE模型。
採用三階段由易到難的課程學習策略，配合反遺忘錨定和200萬雙語樣本的微調。
希伯來語推理平均分73.8%，優於DictaLM-3.0-24B-Thinking（68.9%）。
僅啟用30億引數（總引數量300億），實現約9倍推理吞吐量。

為什麼重要

這條新聞值得關注，因為首個支援原生長上下文的希伯來語開源權重MoE模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Hebatron是一款專為希伯來語設計的開源權重大語言模型，基於NVIDIA Nemotron-3稀疏混合專家（MoE）架構構建。該模型的總引數量為300億，但每次前向傳播僅啟用30億引數，從而實現了高效推理。訓練過程採用三階段由易到難的課程學習策略，並輔以連續的反遺忘錨定機制，隨後在200萬條希伯來語-英語雙語樣本上進行監督微調。研究團隊發現，課程順序本身就能帶來3個百分點的基準效能提升。

在效能方面，Hebatron在希伯來語推理任務上取得了73.8%的平均準確率，超越了此前的最佳模型DictaLM-3.0-24B-Thinking（68.9%），並在GSM8K-HE和以色列常識問答等基準測試中與Gemma-3-27B-IT不相上下。得益於MoE架構，Hebatron在保持原生65,536個token上下文長度的同時，推理吞吐量約為同等規模模型的9倍。據研究者稱，這是首次將Nemotron-3架構適配到特定語言的嘗試，也是首個支援原生長上下文的希伯來語開源MoE模型。模型權重現已公開，以促進希伯來語及閃米特語自然語言處理的進一步研究。

Hebatron的釋出對於低資源語言NLP領域具有重要意義。它展示瞭如何將高效MoE架構用於特定語言，在保持效能的同時大幅降低推理成本。未來，該模型有望推動希伯來語語音助手、機器翻譯和資訊檢索等應用的發展。此外，其開源特性鼓勵社群參與改進和適配，可能為其他閃米特語類似模型奠定基礎。研究者計劃進一步最佳化訓練策略並擴充套件模型能力，使其更廣泛地服務於學術和工業界。