AI News HubLIVE
站内改写2 分鐘閱讀

大型語言模型中的時間偏好概念及其功能

研究人員在一款蒸餾版大型語言模型(Qwen3-4B-Instruct-2507)中定位了負責時間偏好的神經子圖,發現模型對未來折扣的程度遠低於人類,且這種偏好在不同上下文中不穩定,而透過引導向量可以調節時間偏好。

來源arXiv Machine Learning作者: Ian Rios-Sialer, Shantanu Darveshi, Shuai Jiang, Avigya Paudel, Anastasiia Pronina, Ipshita Bandyopadhyay, Justin Shenk

大型語言模型(LLM)越來越多地被用於需要權衡短期收益和長期後果的決策場景,例如在資源分配、投資策略或社會規劃中。然而,這些模型如何在內部表徵或解決這些時間權衡問題,此前鮮為人知。一項發表於 arXiv 的新研究透過因果機制可解釋性方法,在蒸餾版 Qwen3-4B-Instruct-2507 模型中成功定位了時間偏好的關鍵神經子圖,為理解 LLM 的決策機制提供了重要突破。

研究團隊採用梯度歸因與啟用補丁兩種技術,透過匯聚證據識別出模型中從中間層到上層的一系列節點,這些節點共同構成了時間偏好的神經子圖。進一步分析表明,時間跨度的幾何結構——即模型對遠期結果的重視程度——確實被編碼在預期區域性層的殘差流中。這一發現意味著 LLM 內部存在一個專門用於處理時間折扣的神經迴路,其運作方式與人類的心理認知機制存在顯著差異。

行為實驗的結果尤其引人深思:未經任何干預的 LLM 對未來收益的折扣程度比人類低數倍,也就是說,它們更傾向於等待更長遠的回報。然而,這種偏好並非穩定不變,而是隨著上下文情境的不同而大幅波動。例如,當任務涉及即時獎勵與延遲獎勵的簡單選擇時,模型可能表現出高度耐心;但在複雜多步推理中,其時間偏好可能發生反轉。這種不穩定性暗示,僅僅依賴訓練資料中隱含的時間偏好多是不可靠的,我們需要發展顯式的控制手段。

論文進一步提供了初步證據,表明透過所謂的“引導向量”(steering vectors)可以有效改變模型的時間偏好。引導向量是一種基於啟用工程的技術,能夠沿著特定方向調整模型內部表示的幾何結構。研究者在特定層施加引導向量後,觀察到模型在未來折扣程度上的系統性變化,這為人工調節 LLM 的決策傾向開闢了新的可能性。

這項工作不僅深化了我們對 LLM 內部機制的理解,更重要的是展示了機制可解釋性如何幫助我們實現對模型規劃與推理的可靠控制。隨著 LLM 越來越多地應用於高風險決策領域,確保它們能夠合理平衡短期與長期利益變得至關重要。該研究為這一目標提供了紮實的基礎工具和方法論,未來或可應用於模型對齊、安全性和倫理約束等更廣泛的領域。