2026-05-13站内改写

HEBATRON：一款面向希伯来语的开源权重混合专家语言模型

研究者推出了Hebatron，一款基于NVIDIA Nemotron-3稀疏MoE架构的希伯来语专用开源权重大语言模型。该模型在每轮前向传播中仅激活30亿参数，却能达到73.8%的希伯来语推理准确率，超越了之前的模型，并与Gemma-3-27B等更大规模的模型相抗衡，同时提供约9倍的推理吞吐量和高达65,536个token的上下文长度。

文章情报

工程师进阶

要点

首个支持原生长上下文的希伯来语开源权重MoE模型。
采用三阶段由易到难的课程学习策略，配合反遗忘锚定和200万双语样本的微调。
希伯来语推理平均分73.8%，优于DictaLM-3.0-24B-Thinking（68.9%）。
仅激活30亿参数（总参数量300亿），实现约9倍推理吞吐量。

为什么重要

这条新闻值得关注，因为首个支持原生长上下文的希伯来语开源权重MoE模型。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Hebatron是一款专为希伯来语设计的开源权重大语言模型，基于NVIDIA Nemotron-3稀疏混合专家（MoE）架构构建。该模型的总参数量为300亿，但每次前向传播仅激活30亿参数，从而实现了高效推理。训练过程采用三阶段由易到难的课程学习策略，并辅以连续的反遗忘锚定机制，随后在200万条希伯来语-英语双语样本上进行监督微调。研究团队发现，课程顺序本身就能带来3个百分点的基准性能提升。

在性能方面，Hebatron在希伯来语推理任务上取得了73.8%的平均准确率，超越了此前的最佳模型DictaLM-3.0-24B-Thinking（68.9%），并在GSM8K-HE和以色列常识问答等基准测试中与Gemma-3-27B-IT不相上下。得益于MoE架构，Hebatron在保持原生65,536个token上下文长度的同时，推理吞吐量约为同等规模模型的9倍。据研究者称，这是首次将Nemotron-3架构适配到特定语言的尝试，也是首个支持原生长上下文的希伯来语开源MoE模型。模型权重现已公开，以促进希伯来语及闪米特语自然语言处理的进一步研究。

Hebatron的发布对于低资源语言NLP领域具有重要意义。它展示了如何将高效MoE架构用于特定语言，在保持性能的同时大幅降低推理成本。未来，该模型有望推动希伯来语语音助手、机器翻译和信息检索等应用的发展。此外，其开源特性鼓励社区参与改进和适配，可能为其他闪米特语类似模型奠定基础。研究者计划进一步优化训练策略并扩展模型能力，使其更广泛地服务于学术和工业界。