AI News HubLIVE
站内改写

Granite 4.1 LLM:構築方法の詳細

IBM Granite 4.1 は、デコーダーのみの高密度LLMファミリ(3B、8B、30B)で、約15兆トークンによるマルチステージ事前学習、最大512Kトークンの長コンテキスト拡張、約410万の厳選サンプルによる教師ありファインチューニング、そしてオンポリシーGRPOとDAPO損失を利用したマルチステージ強化学習を採用。8Bインストラクトモデルは、以前の32B MoEモデルに匹敵またはそれを上回る性能を発揮。すべてのモデルはApache 2.0ライセンスで公開。

記事インテリジェンス

エンジニア上級

要点

  • Granite 4.1 は3B、8B、30Bの高密度デコーダーオンリーLLM。
  • 5フェーズの事前学習パイプライン、最大512Kトークンの長コンテキスト拡張。
  • 教師ありファインチューニングは約410万サンプル、LLM-as-Judgeで品質管理。
  • マルチステージ強化学習(マルチドメインRL、RLHF、アイデンティティ校正、数学RL)で性能向上。

重要な理由

このニュースが重要なのは、Granite 4.1 は3B、8B、30Bの高密度デコーダーオンリーLLMためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

IBM は、新しい高密度デコーダーオンリー大規模言語モデル(LLM)シリーズ、Granite 4.1 をリリースしました。このシリーズには3B、8B、30Bの3つのパラメータ規模があり、約15兆トークンを用いてゼロから訓練され、革新的な5フェーズ事前学習戦略を採用し、最終的にコンテキストウィンドウを512Kトークンに拡張しています。すべてのモデルはApache 2.0ライセンスでオープンソース化され、エンタープライズアプリケーションに効率的で信頼性の高い選択肢を提供します。

Granite 4.1 のアーキテクチャは、グループ化クエリアテンション(GQA)、ロータリーポジション埋め込み(RoPE)、SwiGLU活性化関数、RMSNormを採用しています。パラメータが少ないにもかかわらず、8Bインストラクトモデルは主要ベンチマークで前世代の Granite 4.0-H-Small(32Bパラメータ、9BアクティブパラメータのMoEモデル)に匹敵するかそれを上回り、高品質な訓練データとマルチステージ最適化の重要性を示しています。

事前学習は5つのフェーズに分かれています。最初の2フェーズは一般的な言語理解と数学/コード能力に焦点を当て、第3・第4フェーズは高品質データアニーリングで、徐々に思考連鎖や合成指示データを導入。第5フェーズは段階的な拡張(32K、128K、512K)による長コンテキスト訓練で、モデルマージを用いて短コンテキスト性能を維持しています。RULERベンチマークでは、30Bベースモデルが128Kコンテキスト長でも76.7%の精度を達成しています。

教師ありファインチューニング(SFT)フェーズでは、IBM は厳格な LLM-as-Judge フレームワークを採用し、ルールベースフィルタリングとグローバル重複除去を組み合わせて、元の会話データから約410万の高品質サンプルを抽出しています。このフレームワークは6つの次元で応答を評価し、幻覚、誤った前提などの重大な欠陥に対してはハードリジェクトを実施。SFT訓練はGB200ノードで行われ、学習率5e-6、シーケンス長16384トークン、3エポックで実行されました。

強化学習(RL)段階はマルチステージパイプラインを採用。まずマルチドメインRLで、数学、科学、論理的推論、指示追従、構造化出力、Text2SQL、時間推論、一般チャットなど45,504のユニークなプロンプトを使用。次にRLHF段階で、多言語スカラー報酬モデルを用いて有用性を向上させ、AlpacaEvalで平均18.9ポイント向上。続いてアイデンティティと知識校正RLで、わずかなステップでモデルの自己識別能力を大幅に改善。最後に数学RLで、RLHFによる数学性能の低下を補い、GSM8KとDeepMind-Mathでそれぞれ約3.8ポイント、23.48ポイントの向上を達成しました。

ベンチマーク結果では、Granite 4.1 は多くのタスクで優れた性能を示しています。30BインストラクトモデルはMMLUで80.16%、GSM8Kで94.16%、HumanEvalで89.63%を達成。ツール呼び出しではBFCL v3で73.68、安全性テストSALAD-Benchで96.41を記録。モデルは中国語、日本語、英語など12言語をサポートしています。

IBM はFP8量子化バリアントも提供しており、LLM Compressorを使用して重みと活性化の精度を16ビットから8ビットに削減し、ディスクフットプリントとGPUメモリ使用量を約50%削減。訓練はNVIDIA GB200 NVL72クラスター上で行われ、高帯域幅InfiniBand相互接続により効率的な分散訓練を実現しています。Granite 4.1 のリリースは、高品質なオープンソース言語モデルの重要な進歩を示しています。各段階でデータ品質と厳格な最適化を重視することで、IBM は注意深く訓練された高密度モデルがより大きなMoEアーキテクチャに匹敵する性能を発揮できることを実証し、コミュニティに強力なエンタープライズ向けAIツールを提供しています。