2026-06-08 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

跳过一层还是循环它？学习大语言模型中的层程序

研究发现，大语言模型（LLM）的层可以被动态跳过或重复，形成针对每个输入的定制程序，通常用更少的层就能达到相同或更高的准确率。通过轻量级预测网络，PoLar方法在数学推理基准上持续优于标准推理和先前动态深度方法。

来源arXiv Machine Learning作者: Ziyue Li, Yang Li, Tianyi Zhou

大语言模型（LLM）的传统推理方式是按固定顺序依次通过所有层。然而，普林斯顿大学与谷歌研究院等机构的研究人员提出了一种全新的范式——Program-of-Layers（PoLar），表明预训练层可以被视为模块，针对不同输入动态跳过或重复，从而形成个性化的执行程序。这篇被ICML 2026收录的论文指出，对于大多数输入，使用较短的执行程序即可达到甚至超越原始全层推理的准确率，而且原本错误预测也可以通过更少层的替代程序得到纠正。这些现象说明推理过程中存在多种有效的潜在计算路径，远非标准前向传播所能涵盖。为了在现实场景中高效实现PoLar，团队设计了一个轻量级的PoLar预测网络，它学习为每个输入生成执行程序，动态决定哪些层应该被跳过或重复。实验在多个数学推理基准上进行，结果显示PoLar不仅持续优于标准推理和先前的动态深度方法，而且通常执行更少的层数。更值得注意的是，这种优势在分布外评估中依然保持。该研究强烈表明，固定深度的执行只能捕捉LLM潜在推理能力的一小部分，而PoLar能够更充分地激发模型潜能。模型代码已开源。此外，该论文是ICML 2026的接收论文，并大幅扩展了arXiv:2507.07996的工作。PoLar方法的核心在于其无需额外训练，仅通过一个轻量级预测网络即可实现动态层选择，这为高效推理和模型压缩提供了新思路。研究人员还发现，不同输入对应的最佳程序结构差异显著，有的需要跳过某些层，有的则需要循环利用某些层，这种灵活性使得LLM能够根据任务复杂度自适应地分配计算资源。未来，PoLar有望应用于更大规模的模型和更多样化的任务中，进一步释放LLM的潜力。