AI News HubLIVE
站内改写1 分钟阅读

解锁大规模门控Delta网络的特征学习

本文研究了如何将最大更新参数化(μP)扩展到门控Delta网络,这是一种高效的线性模型架构。通过严格分析前向传播、门控机制和循环状态动态中的坐标大小,作者推导出了缩放规则。实验表明,在AdamW和SGD优化器下,所提出的配置能够实现不同模型宽度间的稳定学习率迁移,而标准参数化则无法迁移。

来源arXiv Machine Learning作者: Yifeng Liu, Quanquan Gu

近期,来自加州大学洛杉矶分校的Yifeng Liu和Quanquan Gu在arXiv上发表了题为《Unlocking Feature Learning in Gated Delta Networks at Scale》的研究论文。该研究聚焦于如何将最大更新参数化(Maximal Update Parametrization, μP)应用于门控Delta网络(Gated Delta Networks),这是一种高效的线性模型架构。随着大型语言模型(LLMs)训练的日益普及,计算资源的需求急剧增加,这促使研究者探索更高效的次二次复杂度架构以及理论驱动的超参数调优方法。μP此前已被证明能够实现标准Transformer的零样本超参数迁移,即在小模型上优化的超参数可以直接用于大模型,从而节省大量调参成本。然而,该理论尚未被扩展到具有结构化状态转换和复杂架构的线性模型,如门控Delta网络。

在这项工作中,作者通过严格分析前向传播、门控机制以及循环状态动态中的坐标大小估计,推导出了门控Delta网络的缩放规则。具体而言,他们考虑了网络中各张量坐标的方差和更新幅度,确保了在宽度增加时,特征学习能够持续进行,而不会出现梯度爆炸或消失。实验基于语言模型预训练任务,使用了AdamW和SGD两种优化器。结果表明,采用他们所提出的参数化配置,学习率可以在不同模型宽度之间稳定迁移,而标准的参数化方法则无法做到这一点。这验证了理论分析的正确性和实际效用。

该研究的意义在于,它为更高效的架构设计提供了理论指导,有望降低大型语言模型的训练成本,并推动次二次复杂度模型在实际应用中的广泛使用。论文的代码和数据已公开,供其他研究者复现和进一步探索。这一工作不仅扩展了μP的应用范围,也为线性递归模型的理论研究开辟了新的方向。