AI News HubLIVE
站内改写2 分钟阅读

大型语言模型中的时间偏好概念及其功能

研究人员在一款蒸馏版大型语言模型(Qwen3-4B-Instruct-2507)中定位了负责时间偏好的神经子图,发现模型对未来折扣的程度远低于人类,且这种偏好在不同上下文中不稳定,而通过引导向量可以调节时间偏好。

来源arXiv Machine Learning作者: Ian Rios-Sialer, Shantanu Darveshi, Shuai Jiang, Avigya Paudel, Anastasiia Pronina, Ipshita Bandyopadhyay, Justin Shenk

大型语言模型(LLM)越来越多地被用于需要权衡短期收益和长期后果的决策场景,例如在资源分配、投资策略或社会规划中。然而,这些模型如何在内部表征或解决这些时间权衡问题,此前鲜为人知。一项发表于 arXiv 的新研究通过因果机制可解释性方法,在蒸馏版 Qwen3-4B-Instruct-2507 模型中成功定位了时间偏好的关键神经子图,为理解 LLM 的决策机制提供了重要突破。

研究团队采用梯度归因与激活补丁两种技术,通过汇聚证据识别出模型中从中间层到上层的一系列节点,这些节点共同构成了时间偏好的神经子图。进一步分析表明,时间跨度的几何结构——即模型对远期结果的重视程度——确实被编码在预期局部层的残差流中。这一发现意味着 LLM 内部存在一个专门用于处理时间折扣的神经回路,其运作方式与人类的心理认知机制存在显著差异。

行为实验的结果尤其引人深思:未经任何干预的 LLM 对未来收益的折扣程度比人类低数倍,也就是说,它们更倾向于等待更长远的回报。然而,这种偏好并非稳定不变,而是随着上下文情境的不同而大幅波动。例如,当任务涉及即时奖励与延迟奖励的简单选择时,模型可能表现出高度耐心;但在复杂多步推理中,其时间偏好可能发生反转。这种不稳定性暗示,仅仅依赖训练数据中隐含的时间偏好多是不可靠的,我们需要发展显式的控制手段。

论文进一步提供了初步证据,表明通过所谓的“引导向量”(steering vectors)可以有效改变模型的时间偏好。引导向量是一种基于激活工程的技术,能够沿着特定方向调整模型内部表示的几何结构。研究者在特定层施加引导向量后,观察到模型在未来折扣程度上的系统性变化,这为人工调节 LLM 的决策倾向开辟了新的可能性。

这项工作不仅深化了我们对 LLM 内部机制的理解,更重要的是展示了机制可解释性如何帮助我们实现对模型规划与推理的可靠控制。随着 LLM 越来越多地应用于高风险决策领域,确保它们能够合理平衡短期与长期利益变得至关重要。该研究为这一目标提供了扎实的基础工具和方法论,未来或可应用于模型对齐、安全性和伦理约束等更广泛的领域。