2026-04-29站内改写

Granite 4.1 LLM：構建方法詳解

IBM Granite 4.1 是一個密集解碼器僅LLM系列（3B、8B、30B），在多階段預訓練中使用了約15萬億個token，包括長達512K token的長上下文擴充套件。模型透過監督微調（約410萬個高質量樣本）和基於策略的GRPO與DAPO損失的強化學習進一步最佳化。8B指令模型在效能上匹配甚至超越了之前的32B MoE模型，所有模型均在Apache 2.0許可下發布。

文章情報

工程師進階

要點

Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
採用五階段預訓練管道，包括長上下文擴充套件到512K token。
監督微調使用約410萬樣本，透過LLM-as-Judge確保質量。
多階段強化學習（多領域RL、RLHF、身份校準、數學RL）提升效能。

為什麼重要

這條新聞值得關注，因為Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

IBM 釋出了 Granite 4.1，這是一個全新的密集解碼器僅大型語言模型（LLM）系列，包含3B、8B和30B三種引數規模。該系列模型從零開始訓練，使用約15萬億個token，採用創新的五階段預訓練策略，最終將上下文視窗擴充套件至512K token。所有模型均在 Apache 2.0 許可下開源，為企業應用提供了高效、可靠的選擇。

Granite 4.1 的架構採用分組查詢注意力（GQA）、旋轉位置嵌入（RoPE）、SwiGLU啟用函式和RMSNorm。儘管引數更少，8B指令模型在關鍵基準測試中匹配甚至超越了上一代 Granite 4.0-H-Small（32B引數、9B活躍引數的MoE模型），這展示了高質量訓練資料和多階段最佳化的重要性。

預訓練分為五個階段：前兩個階段側重於通用語言理解和數學/程式碼能力；第三和第四階段是高通量資料退火，逐漸引入思想鏈和合成指令資料；第五階段透過分步擴充套件（32K、128K、512K）進行長上下文訓練，並使用模型合併以保持短上下文效能。RULER基準測試表明，30B基礎模型在128K上下文長度下仍能達到76.7%的準確率。

監督微調（SFT）階段，IBM 採用了嚴格的 LLM-as-Judge 框架，結合規則過濾和全域性去重，從原始對話資料中篩選出約410萬個高質量樣本。該框架從六個維度評估響應，並對幻覺、錯誤前提等嚴重缺陷實施硬拒絕。SFT 訓練在 GB200 節點上進行，學習率為5e-6，序列長度為16384 token，共3個epoch。

強化學習（RL）階段採用多階段管道：首先進行多領域RL，涵蓋數學、科學、邏輯推理、指令跟隨、結構化輸出、Text2SQL、時間推理和通用聊天，使用45,504個獨特提示；隨後是RLHF階段，使用多語言標量獎勵模型提升幫助性，在AlpacaEval上平均提升18.9分；接著進行身份和知識校準RL，僅用少量步驟顯著改善模型自我識別能力；最後是數學RL，彌補RLHF帶來的數學效能下降，使GSM8K和DeepMind-Math分數分別提升約3.8和23.48點。

基準測試結果顯示，Granite 4.1 在多項任務上表現出色：30B指令模型在MMLU上達到80.16%，GSM8K為94.16%，HumanEval為89.63%。在工具呼叫方面，BFCL v3得分為73.68，安全性測試SALAD-Bench達到96.41%。模型支援12種語言，包括中文、日語、英語等。

IBM 還提供了FP8量化版本，使用LLM Compressor將權重和啟用精度從16位降至8位，磁碟佔用和GPU記憶體使用減少約50%。訓練在NVIDIA GB200 NVL72叢集上進行，採用高頻寬InfiniBand互聯，支援高效分散式訓練。Granite 4.1 的釋出標誌著高質量開源語言模型的重要進展。透過在每個階段強調資料質量和嚴格最佳化，IBM 證明了精心訓練的密集模型可以在效能上媲美甚至超越更大的MoE架構，為社群提供了強大的企業級AI工具。