2026-04-29站内改写

Granite 4.1 LLM：構建方法詳解

IBM Granite 4.1 是一個密集解碼器僅LLM系列（3B、8B、30B），在多階段預訓練中使用了約15萬億個token，包括長達512K token的長上下文擴展。模型通過監督微調（約410萬個高質量樣本）和基於策略的GRPO與DAPO損失的強化學習進一步優化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型，所有模型均在Apache 2.0許可下發布。

文章情報

工程師進階

要點

Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
採用五階段預訓練管道，包括長上下文擴展到512K token。
監督微調使用約410萬樣本，通過LLM-as-Judge確保質量。
多階段強化學習（多領域RL、RLHF、身份校準、數學RL）提升性能。

為甚麼重要

這條新聞值得關注，因為Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

IBM 發佈了 Granite 4.1，這是一個全新的密集解碼器僅大型語言模型（LLM）系列，包含3B、8B和30B三種參數規模。該系列模型從零開始訓練，使用約15萬億個token，採用創新的五階段預訓練策略，最終將上下文窗口擴展至512K token。所有模型均在 Apache 2.0 許可下開源，為企業應用提供了高效、可靠的選擇。

Granite 4.1 的架構採用分組查詢注意力（GQA）、旋轉位置嵌入（RoPE）、SwiGLU激活函數和RMSNorm。儘管參數更少，8B指令模型在關鍵基準測試中匹配甚至超越了上一代 Granite 4.0-H-Small（32B參數、9B活躍參數的MoE模型），這展示了高質量訓練數據和多階段優化的重要性。

預訓練分為五個階段：前兩個階段側重於通用語言理解和數學/代碼能力；第三和第四階段是高通量數據退火，逐漸引入思想鏈和合成指令數據；第五階段通過分步擴展（32K、128K、512K）進行長上下文訓練，並使用模型合併以保持短上下文性能。RULER基準測試表明，30B基礎模型在128K上下文長度下仍能達到76.7%的準確率。

監督微調（SFT）階段，IBM 採用了嚴格的 LLM-as-Judge 框架，結合規則過濾和全局去重，從原始對話數據中篩選出約410萬個高質量樣本。該框架從六個維度評估響應，並對幻覺、錯誤前提等嚴重缺陷實施硬拒絕。SFT 訓練在 GB200 節點上進行，學習率為5e-6，序列長度為16384 token，共3個epoch。

強化學習（RL）階段採用多階段管道：首先進行多領域RL，涵蓋數學、科學、邏輯推理、指令跟隨、結構化輸出、Text2SQL、時間推理和通用聊天，使用45,504個獨特提示；隨後是RLHF階段，使用多語言標量獎勵模型提升幫助性，在AlpacaEval上平均提升18.9分；接着進行身份和知識校準RL，僅用少量步驟顯著改善模型自我識別能力；最後是數學RL，彌補RLHF帶來的數學性能下降，使GSM8K和DeepMind-Math分數分別提升約3.8和23.48點。

基準測試結果顯示，Granite 4.1 在多項任務上表現出色：30B指令模型在MMLU上達到80.16%，GSM8K為94.16%，HumanEval為89.63%。在工具調用方面，BFCL v3得分為73.68，安全性測試SALAD-Bench達到96.41%。模型支持12種語言，包括中文、日語、英語等。

IBM 還提供了FP8量化版本，使用LLM Compressor將權重和激活精度從16位降至8位，磁盤佔用和GPU內存使用減少約50%。訓練在NVIDIA GB200 NVL72集羣上進行，採用高帶寬InfiniBand互聯，支持高效分佈式訓練。Granite 4.1 的發佈標誌着高質量開源語言模型的重要進展。通過在每個階段強調數據質量和嚴格優化，IBM 證明了精心訓練的密集模型可以在性能上媲美甚至超越更大的MoE架構，為社區提供了強大的企業級AI工具。