前沿后训练配方回顾:与Finbarr Timbers对话
本播客深入探讨了后训练配方的演变,从InstructGPT到2026年的多教师策略(MOPD)。Nathan Lambert与Finbarr Timbers回顾了OLMo-3等开源模型的挑战,并分析了前沿实验室如何通过专业化教师和策略蒸馏来突破性能瓶颈。
在最新一期Interconnects播客中,Nathan Lambert与AI2研究员Finbarr Timbers进行了一场深度对话,系统回顾了后训练配方的演变历程。作为RLHF/后训练书籍的收尾工作,Lambert精心准备了一份幻灯片,梳理了从InstructGPT到2026年前沿模型的关键配方变化。这场对话不仅涵盖了历史脉络,还深入剖析了当前前沿实验室采用的最新策略——多教师在线策略蒸馏(MOPD)。
后训练配方在过去一年经历了前所未有的变革。2022-2023年,InstructGPT确立了SFT→奖励模型→RL的经典三步流程。2024年,Llama 3和Tülu 3等开源模型将流程具体化为SFT→DPO→可验证奖励强化学习(RLVR)。2025年DeepSeek R1的发布使大规模强化学习成为核心,而2026年的MiMo Flash v2和DeepSeek V4则引入了MOPD这一全新范式。
MOPD的核心思想是:为每个领域训练专业教师,每个教师经历SFT和领域专用RL,然后使用一个通用学生模型通过采样自身轨迹来学习,在每个token上最小化与相应教师输出分布的反向KL散度。这种方法的优势在于:RL训练成本高昂且容易出现冲突(例如数学和代码能力相互制约),而专门化教师既经济又易于并行开发。Lambert和Timbers指出,MOPD的出现标志着后训练从单一模型训练转向专业化协作和知识蒸馏。
他们还回顾了OLMo-3的后训练过程。OLMo-3作为推理模型于2025年11月发布,距DeepSeek R1约9个月,其简洁的配方(基于Tülu 3的SFT→DPO→RLVR)在学术组织中已属不易。Lambert强调,现代后训练的瓶颈在于组织协调能力——复杂的管线需要有效管理计算和数据流。Timbers补充道,虽然OLMo-3发布较晚,但9个月的周转时间在模型开发中并不算差,尤其考虑到他们是在现有配方基础上移植推理能力,而非从头重建R1的配方。
播客中还详细讨论了2026年的典型配方,例如MiMo Flash v2的六专家MOPD、Nemotron 3 Ultra的两轮十专家蒸馏,以及MAI-Thinking-1的多阶段RL。这些配方展示了后训练领域的快速演进:从前端的单管线到后端的专业化教师协作,再到多轮蒸馏的成熟应用。Lambert和Timbers一致认为,对于希望进入LLM领域的从业者,关注后训练技术的演进——特别是如何平衡多个能力目标——将是关键。完整播客可在Apple Podcasts、Spotify等平台收听。