AI News HubLIVE
站内改写

Granite 4.1 LLM:構建方法詳解

IBM Granite 4.1 是一個密集解碼器僅LLM系列(3B、8B、30B),在多階段預訓練中使用了約15萬億個token,包括長達512K token的長上下文擴展。模型通過監督微調(約410萬個高質量樣本)和基於策略的GRPO與DAPO損失的強化學習進一步優化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0許可下發布。

文章情報

工程師進階

要點

  • Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。
  • 採用五階段預訓練管道,包括長上下文擴展到512K token。
  • 監督微調使用約410萬樣本,通過LLM-as-Judge確保質量。
  • 多階段強化學習(多領域RL、RLHF、身份校準、數學RL)提升性能。

為甚麼重要

這條新聞值得關注,因為Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

IBM 發佈了 Granite 4.1,這是一個全新的密集解碼器僅大型語言模型(LLM)系列,包含3B、8B和30B三種參數規模。該系列模型從零開始訓練,使用約15萬億個token,採用創新的五階段預訓練策略,最終將上下文窗口擴展至512K token。所有模型均在 Apache 2.0 許可下開源,為企業應用提供了高效、可靠的選擇。

Granite 4.1 的架構採用分組查詢注意力(GQA)、旋轉位置嵌入(RoPE)、SwiGLU激活函數和RMSNorm。儘管參數更少,8B指令模型在關鍵基準測試中匹配甚至超越了上一代 Granite 4.0-H-Small(32B參數、9B活躍參數的MoE模型),這展示了高質量訓練數據和多階段優化的重要性。

預訓練分為五個階段:前兩個階段側重於通用語言理解和數學/代碼能力;第三和第四階段是高通量數據退火,逐漸引入思想鏈和合成指令數據;第五階段通過分步擴展(32K、128K、512K)進行長上下文訓練,並使用模型合併以保持短上下文性能。RULER基準測試表明,30B基礎模型在128K上下文長度下仍能達到76.7%的準確率。

監督微調(SFT)階段,IBM 採用了嚴格的 LLM-as-Judge 框架,結合規則過濾和全局去重,從原始對話數據中篩選出約410萬個高質量樣本。該框架從六個維度評估響應,並對幻覺、錯誤前提等嚴重缺陷實施硬拒絕。SFT 訓練在 GB200 節點上進行,學習率為5e-6,序列長度為16384 token,共3個epoch。

強化學習(RL)階段採用多階段管道:首先進行多領域RL,涵蓋數學、科學、邏輯推理、指令跟隨、結構化輸出、Text2SQL、時間推理和通用聊天,使用45,504個獨特提示;隨後是RLHF階段,使用多語言標量獎勵模型提升幫助性,在AlpacaEval上平均提升18.9分;接着進行身份和知識校準RL,僅用少量步驟顯著改善模型自我識別能力;最後是數學RL,彌補RLHF帶來的數學性能下降,使GSM8K和DeepMind-Math分數分別提升約3.8和23.48點。

基準測試結果顯示,Granite 4.1 在多項任務上表現出色:30B指令模型在MMLU上達到80.16%,GSM8K為94.16%,HumanEval為89.63%。在工具調用方面,BFCL v3得分為73.68,安全性測試SALAD-Bench達到96.41%。模型支持12種語言,包括中文、日語、英語等。

IBM 還提供了FP8量化版本,使用LLM Compressor將權重和激活精度從16位降至8位,磁盤佔用和GPU內存使用減少約50%。訓練在NVIDIA GB200 NVL72集羣上進行,採用高帶寬InfiniBand互聯,支持高效分佈式訓練。Granite 4.1 的發佈標誌着高質量開源語言模型的重要進展。通過在每個階段強調數據質量和嚴格優化,IBM 證明了精心訓練的密集模型可以在性能上媲美甚至超越更大的MoE架構,為社區提供了強大的企業級AI工具。