Granite 4.1 LLM:构建方法详解
IBM Granite 4.1 是一个密集解码器仅LLM系列(3B、8B、30B),在多阶段预训练中使用了约15万亿个token,包括长达512K token的长上下文扩展。模型通过监督微调(约410万个高质量样本)和基于策略的GRPO与DAPO损失的强化学习进一步优化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0许可下发布。
文章情报
要点
- Granite 4.1 系列包括3B、8B和30B三种密集解码器仅LLM。
- 采用五阶段预训练管道,包括长上下文扩展到512K token。
- 监督微调使用约410万样本,通过LLM-as-Judge确保质量。
- 多阶段强化学习(多领域RL、RLHF、身份校准、数学RL)提升性能。
为什么重要
这条新闻值得关注,因为Granite 4.1 系列包括3B、8B和30B三种密集解码器仅LLM。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
IBM 发布了 Granite 4.1,这是一个全新的密集解码器仅大型语言模型(LLM)系列,包含3B、8B和30B三种参数规模。该系列模型从零开始训练,使用约15万亿个token,采用创新的五阶段预训练策略,最终将上下文窗口扩展至512K token。所有模型均在 Apache 2.0 许可下开源,为企业应用提供了高效、可靠的选择。
Granite 4.1 的架构采用分组查询注意力(GQA)、旋转位置嵌入(RoPE)、SwiGLU激活函数和RMSNorm。尽管参数更少,8B指令模型在关键基准测试中匹配甚至超越了上一代 Granite 4.0-H-Small(32B参数、9B活跃参数的MoE模型),这展示了高质量训练数据和多阶段优化的重要性。
预训练分为五个阶段:前两个阶段侧重于通用语言理解和数学/代码能力;第三和第四阶段是高通量数据退火,逐渐引入思想链和合成指令数据;第五阶段通过分步扩展(32K、128K、512K)进行长上下文训练,并使用模型合并以保持短上下文性能。RULER基准测试表明,30B基础模型在128K上下文长度下仍能达到76.7%的准确率。
监督微调(SFT)阶段,IBM 采用了严格的 LLM-as-Judge 框架,结合规则过滤和全局去重,从原始对话数据中筛选出约410万个高质量样本。该框架从六个维度评估响应,并对幻觉、错误前提等严重缺陷实施硬拒绝。SFT 训练在 GB200 节点上进行,学习率为5e-6,序列长度为16384 token,共3个epoch。
强化学习(RL)阶段采用多阶段管道:首先进行多领域RL,涵盖数学、科学、逻辑推理、指令跟随、结构化输出、Text2SQL、时间推理和通用聊天,使用45,504个独特提示;随后是RLHF阶段,使用多语言标量奖励模型提升帮助性,在AlpacaEval上平均提升18.9分;接着进行身份和知识校准RL,仅用少量步骤显著改善模型自我识别能力;最后是数学RL,弥补RLHF带来的数学性能下降,使GSM8K和DeepMind-Math分数分别提升约3.8和23.48点。
基准测试结果显示,Granite 4.1 在多项任务上表现出色:30B指令模型在MMLU上达到80.16%,GSM8K为94.16%,HumanEval为89.63%。在工具调用方面,BFCL v3得分为73.68,安全性测试SALAD-Bench达到96.41%。模型支持12种语言,包括中文、日语、英语等。
IBM 还提供了FP8量化版本,使用LLM Compressor将权重和激活精度从16位降至8位,磁盘占用和GPU内存使用减少约50%。训练在NVIDIA GB200 NVL72集群上进行,采用高带宽InfiniBand互联,支持高效分布式训练。Granite 4.1 的发布标志着高质量开源语言模型的重要进展。通过在每个阶段强调数据质量和严格优化,IBM 证明了精心训练的密集模型可以在性能上媲美甚至超越更大的MoE架构,为社区提供了强大的企业级AI工具。