HEBATRON: ヘブライ語特化型オープンウェイト混合エキスパート言語モデル
研究者らは、NVIDIA Nemotron-3 スパースMoEアーキテクチャに基づくヘブライ語特化型オープンウェイト大規模言語モデルHebatronを発表した。1回のフォワードパスで30億パラメータのみを活性化し、ヘブライ語推論精度73.8%を達成。従来モデルを上回り、Gemma-3-27Bなどの大規模モデルと競合しつつ、約9倍の推論スループットと65,536トークンのコンテキスト長を提供する。
記事インテリジェンス
要点
- ネイティブな長文脈をサポートする初のヘブライ語特化型オープンウェイトMoEモデル。
- 3段階の易から難へのカリキュラム学習と忘却防止アンカリング、200万のバイリンガルサンプルによる微調整を採用。
- ヘブライ語推論平均73.8%を達成し、DictaLM-3.0-24B-Thinking(68.9%)を上回る。
- 300億パラメータ中30億のみを活性化し、約9倍の推論スループットを実現。
重要な理由
このニュースが重要なのは、ネイティブな長文脈をサポートする初のヘブライ語特化型オープンウェイトMoEモデルためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Hebatronは、NVIDIA Nemotron-3スパース混合エキスパート(MoE)アーキテクチャを基盤とする、ヘブライ語に特化したオープンウェイト大規模言語モデルです。総パラメータ数300億のうち、1回のフォワードパスで活性化されるのは30億パラメータのみであり、高い推論効率を実現します。学習プロセスは、3段階の易から難へのカリキュラムと継続的な忘却防止アンカリングを採用し、その後200万のヘブライ語-英語バイリンガルサンプルで教師あり微調整が行われました。研究チームは、カリキュラムの順序自体がベンチマークで3ポイントの改善をもたらすことを発見しました。
性能面では、Hebatronはヘブライ語推論タスクで平均73.8%の精度を達成し、従来の最高モデルDictaLM-3.0-24B-Thinking(68.9%)を上回り、GSM8K-HEやイスラエル関連トリビアなどのベンチマークでGemma-3-27B-ITに匹敵します。MoEアーキテクチャにより、ネイティブの65,536トークンコンテキスト長を維持しながら、同等規模のモデルと比較して約9倍の推論スループットを実現しています。研究者らによると、これはNemotron-3アーキテクチャを特定言語に適応させた初めての試みであり、ネイティブな長文脈をサポートする初のヘブライ語特化型オープンウェイトMoEモデルです。モデルの重みは公開されており、ヘブライ語およびセム語族の自然言語処理の研究を促進します。
Hebatronのリリースは、低リソース言語NLP分野において重要な意味を持ちます。効率的なMoEアーキテクチャを特定言語に応用し、性能を維持しながら推論コストを大幅に削減する方法を示しています。今後、ヘブライ語音声アシスタント、機械翻訳、情報検索などのアプリケーションでの活用が期待されます。また、オープンウェイトであるため、コミュニティによる改良や他のセム語への応用も可能です。研究チームは、さらなる訓練戦略の最適化とモデル能力の拡張を計画しており、学術界と産業界への広範な貢献を目指しています。