Granite 4.1 LLM:構建方法詳解
IBM Granite 4.1 是一個密集解碼器僅LLM系列(3B、8B、30B),在多階段預訓練中使用了約15萬億個token,包括長達512K token的長上下文擴充套件。模型透過監督微調(約410萬個高質量樣本)和基於策略的GRPO與DAPO損失的強化學習進一步最佳化。8B指令模型在效能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0許可下發布。
文章情報
要點
- Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
- 採用五階段預訓練管道,包括長上下文擴充套件到512K token。
- 監督微調使用約410萬樣本,透過LLM-as-Judge確保質量。
- 多階段強化學習(多領域RL、RLHF、身份校準、數學RL)提升效能。
為什麼重要
這條新聞值得關注,因為Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
IBM 釋出了 Granite 4.1,這是一個全新的密集解碼器僅大型語言模型(LLM)系列,包含3B、8B和30B三種引數規模。該系列模型從零開始訓練,使用約15萬億個token,採用創新的五階段預訓練策略,最終將上下文視窗擴充套件至512K token。所有模型均在 Apache 2.0 許可下開源,為企業應用提供了高效、可靠的選擇。
Granite 4.1 的架構採用分組查詢注意力(GQA)、旋轉位置嵌入(RoPE)、SwiGLU啟用函式和RMSNorm。儘管引數更少,8B指令模型在關鍵基準測試中匹配甚至超越了上一代 Granite 4.0-H-Small(32B引數、9B活躍引數的MoE模型),這展示了高質量訓練資料和多階段最佳化的重要性。
預訓練分為五個階段:前兩個階段側重於通用語言理解和數學/程式碼能力;第三和第四階段是高通量資料退火,逐漸引入思想鏈和合成指令資料;第五階段透過分步擴充套件(32K、128K、512K)進行長上下文訓練,並使用模型合併以保持短上下文效能。RULER基準測試表明,30B基礎模型在128K上下文長度下仍能達到76.7%的準確率。
監督微調(SFT)階段,IBM 採用了嚴格的 LLM-as-Judge 框架,結合規則過濾和全域性去重,從原始對話資料中篩選出約410萬個高質量樣本。該框架從六個維度評估響應,並對幻覺、錯誤前提等嚴重缺陷實施硬拒絕。SFT 訓練在 GB200 節點上進行,學習率為5e-6,序列長度為16384 token,共3個epoch。
強化學習(RL)階段採用多階段管道:首先進行多領域RL,涵蓋數學、科學、邏輯推理、指令跟隨、結構化輸出、Text2SQL、時間推理和通用聊天,使用45,504個獨特提示;隨後是RLHF階段,使用多語言標量獎勵模型提升幫助性,在AlpacaEval上平均提升18.9分;接著進行身份和知識校準RL,僅用少量步驟顯著改善模型自我識別能力;最後是數學RL,彌補RLHF帶來的數學效能下降,使GSM8K和DeepMind-Math分數分別提升約3.8和23.48點。
基準測試結果顯示,Granite 4.1 在多項任務上表現出色:30B指令模型在MMLU上達到80.16%,GSM8K為94.16%,HumanEval為89.63%。在工具呼叫方面,BFCL v3得分為73.68,安全性測試SALAD-Bench達到96.41%。模型支援12種語言,包括中文、日語、英語等。
IBM 還提供了FP8量化版本,使用LLM Compressor將權重和啟用精度從16位降至8位,磁碟佔用和GPU記憶體使用減少約50%。訓練在NVIDIA GB200 NVL72叢集上進行,採用高頻寬InfiniBand互聯,支援高效分散式訓練。Granite 4.1 的釋出標誌著高質量開源語言模型的重要進展。透過在每個階段強調資料質量和嚴格最佳化,IBM 證明了精心訓練的密集模型可以在效能上媲美甚至超越更大的MoE架構,為社群提供了強大的企業級AI工具。