2026-04-29站内改写

Granite 4.1 LLM：构建方法详解

IBM Granite 4.1 是一个密集解码器仅LLM系列（3B、8B、30B），在多阶段预训练中使用了约15万亿个token，包括长达512K token的长上下文扩展。模型通过监督微调（约410万个高质量样本）和基于策略的GRPO与DAPO损失的强化学习进一步优化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型，所有模型均在Apache 2.0许可下发布。

文章情报

工程师进阶

要点

Granite 4.1 系列包括3B、8B和30B三种密集解码器仅LLM。
采用五阶段预训练管道，包括长上下文扩展到512K token。
监督微调使用约410万样本，通过LLM-as-Judge确保质量。
多阶段强化学习（多领域RL、RLHF、身份校准、数学RL）提升性能。

为什么重要

这条新闻值得关注，因为Granite 4.1 系列包括3B、8B和30B三种密集解码器仅LLM。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

IBM 发布了 Granite 4.1，这是一个全新的密集解码器仅大型语言模型（LLM）系列，包含3B、8B和30B三种参数规模。该系列模型从零开始训练，使用约15万亿个token，采用创新的五阶段预训练策略，最终将上下文窗口扩展至512K token。所有模型均在 Apache 2.0 许可下开源，为企业应用提供了高效、可靠的选择。

Granite 4.1 的架构采用分组查询注意力（GQA）、旋转位置嵌入（RoPE）、SwiGLU激活函数和RMSNorm。尽管参数更少，8B指令模型在关键基准测试中匹配甚至超越了上一代 Granite 4.0-H-Small（32B参数、9B活跃参数的MoE模型），这展示了高质量训练数据和多阶段优化的重要性。

预训练分为五个阶段：前两个阶段侧重于通用语言理解和数学/代码能力；第三和第四阶段是高通量数据退火，逐渐引入思想链和合成指令数据；第五阶段通过分步扩展（32K、128K、512K）进行长上下文训练，并使用模型合并以保持短上下文性能。RULER基准测试表明，30B基础模型在128K上下文长度下仍能达到76.7%的准确率。

监督微调（SFT）阶段，IBM 采用了严格的 LLM-as-Judge 框架，结合规则过滤和全局去重，从原始对话数据中筛选出约410万个高质量样本。该框架从六个维度评估响应，并对幻觉、错误前提等严重缺陷实施硬拒绝。SFT 训练在 GB200 节点上进行，学习率为5e-6，序列长度为16384 token，共3个epoch。

强化学习（RL）阶段采用多阶段管道：首先进行多领域RL，涵盖数学、科学、逻辑推理、指令跟随、结构化输出、Text2SQL、时间推理和通用聊天，使用45,504个独特提示；随后是RLHF阶段，使用多语言标量奖励模型提升帮助性，在AlpacaEval上平均提升18.9分；接着进行身份和知识校准RL，仅用少量步骤显著改善模型自我识别能力；最后是数学RL，弥补RLHF带来的数学性能下降，使GSM8K和DeepMind-Math分数分别提升约3.8和23.48点。

基准测试结果显示，Granite 4.1 在多项任务上表现出色：30B指令模型在MMLU上达到80.16%，GSM8K为94.16%，HumanEval为89.63%。在工具调用方面，BFCL v3得分为73.68，安全性测试SALAD-Bench达到96.41%。模型支持12种语言，包括中文、日语、英语等。

IBM 还提供了FP8量化版本，使用LLM Compressor将权重和激活精度从16位降至8位，磁盘占用和GPU内存使用减少约50%。训练在NVIDIA GB200 NVL72集群上进行，采用高带宽InfiniBand互联，支持高效分布式训练。Granite 4.1 的发布标志着高质量开源语言模型的重要进展。通过在每个阶段强调数据质量和严格优化，IBM 证明了精心训练的密集模型可以在性能上媲美甚至超越更大的MoE架构，为社区提供了强大的企业级AI工具。