HEBATRON:一款面向希伯来语的开源权重混合专家语言模型
研究者推出了Hebatron,一款基于NVIDIA Nemotron-3稀疏MoE架构的希伯来语专用开源权重大语言模型。该模型在每轮前向传播中仅激活30亿参数,却能达到73.8%的希伯来语推理准确率,超越了之前的模型,并与Gemma-3-27B等更大规模的模型相抗衡,同时提供约9倍的推理吞吐量和高达65,536个token的上下文长度。
文章情报
要点
- 首个支持原生长上下文的希伯来语开源权重MoE模型。
- 采用三阶段由易到难的课程学习策略,配合反遗忘锚定和200万双语样本的微调。
- 希伯来语推理平均分73.8%,优于DictaLM-3.0-24B-Thinking(68.9%)。
- 仅激活30亿参数(总参数量300亿),实现约9倍推理吞吐量。
为什么重要
这条新闻值得关注,因为首个支持原生长上下文的希伯来语开源权重MoE模型。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Hebatron是一款专为希伯来语设计的开源权重大语言模型,基于NVIDIA Nemotron-3稀疏混合专家(MoE)架构构建。该模型的总参数量为300亿,但每次前向传播仅激活30亿参数,从而实现了高效推理。训练过程采用三阶段由易到难的课程学习策略,并辅以连续的反遗忘锚定机制,随后在200万条希伯来语-英语双语样本上进行监督微调。研究团队发现,课程顺序本身就能带来3个百分点的基准性能提升。
在性能方面,Hebatron在希伯来语推理任务上取得了73.8%的平均准确率,超越了此前的最佳模型DictaLM-3.0-24B-Thinking(68.9%),并在GSM8K-HE和以色列常识问答等基准测试中与Gemma-3-27B-IT不相上下。得益于MoE架构,Hebatron在保持原生65,536个token上下文长度的同时,推理吞吐量约为同等规模模型的9倍。据研究者称,这是首次将Nemotron-3架构适配到特定语言的尝试,也是首个支持原生长上下文的希伯来语开源MoE模型。模型权重现已公开,以促进希伯来语及闪米特语自然语言处理的进一步研究。
Hebatron的发布对于低资源语言NLP领域具有重要意义。它展示了如何将高效MoE架构用于特定语言,在保持性能的同时大幅降低推理成本。未来,该模型有望推动希伯来语语音助手、机器翻译和信息检索等应用的发展。此外,其开源特性鼓励社区参与改进和适配,可能为其他闪米特语类似模型奠定基础。研究者计划进一步优化训练策略并扩展模型能力,使其更广泛地服务于学术和工业界。