2026-06-19站内改写1 分钟阅读更新: 2026-06-19

查询放在哪里？通过解码动态揭示并缓解扩散大语言模型中上下文学习的位置偏差

本文揭示了查询位置对扩散大语言模型中上下文学习的关键影响，源于注意力流中的空间“近因效应”。作者提出平均置信度指标和无需训练的Auto-ICL自适应路由策略，动态优化查询放置，在多种任务中实现接近最优的性能。

来源arXiv Computational Linguistics作者: Zhengheng Li, Panrui Li, Xuyang Liu, Puzhi Xia

扩散大语言模型（Diffusion Large Language Model, dLLM）是一种新兴的文本生成架构，其独特的双向注意力机制使其在上下文学习（In-Context Learning, ICL）方面展现出与自回归模型截然不同的潜力。然而，目前的研究实践大多沿用了自回归模型中的尾查询模板，即默认将查询放在所有示例之后，这一惯例忽略了dLLM在空间布局上的范式转变。来自上海交通大学等机构的研究团队通过系统性的实证分析，揭示了查询位置在dLLM中实际上是一个一阶变量，其变化对生成质量的影响程度与示例本身的语义质量相当。这一发现挑战了传统认知，表明在dLLM中，查询的放置位置并非无关紧要的细节，而是决定模型性能的关键因素。

为了深入理解这一现象的内在机制，研究团队通过解耦实验发现，查询位置的敏感性主要源于注意力流中的空间“近因效应”（Recency Effect），即距离查询越近的示例在注意力分配中占有更大的权重。此外，解码轨迹还会根据任务类型发生系统性的偏移，进一步加剧了位置偏差。这些发现揭示了dLLM中上下文学习的独特空间动力学特征。

针对上述问题，研究团队提出了一种新的指标——平均置信度（Average Confidence），该指标通过追踪迭代解码过程中每一步的置信度变化，能够更准确地反映模型对生成结果的信心。在此基础上，他们设计了Auto-ICL，一种无需额外训练的自适应路由策略。Auto-ICL能够动态地优化查询的放置位置，无需任何真实标签，即可在不同类型的推理和感知任务中接近最优性能（oracle performance）。实验结果表明，Auto-ICL在多个基准任务上均表现出色，为dLLM中上下文学习的实际应用提供了坚实的技术支撑。

这一研究不仅为扩散大语言模型的上下文学习奠定了空间基础，也为未来探索更高效、更灵活的查询放置方法开辟了新的方向。随着dLLM在自然语言处理领域的应用日益广泛，理解并优化其内在的空间偏差将对模型的实际部署产生深远影响。