AI News HubLIVE
站內改寫1 分鐘閱讀

完美檢測,控制失效:語言模型中認知與干預的幾何學

arXiv最新研究揭示了語言模型中“檢測”與“控制”行為方向之間的幾何差異。研究發現,雖然模型可以完美檢測幻覺(AUC=1.0),但檢測方向與引起拒絕的方向餘弦僅為0.12,表明檢測不等於可控性。該差距在不同模型和規模中普遍存在,且源於預訓練階段。旋轉15度可部分緩解這一差距。

來源arXiv Computational Linguistics作者: Cosimo Galeone, Anna Ettorre, Minsu Park, Giuseppe Ettorre, Daniele Ligorio

近日,arXiv上的一項研究對語言模型的可解釋性與可控性進行了深入的幾何分析。論文《Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models》指出,在機械可解釋性領域,一個核心假設是:如果我們知道某個行為在模型激活中的表示位置,就應該能夠修改它。然而,這一假設隱含了一個前提——用於檢測某個行為的方向與用於控制該行為的方向是相同或相近的。

研究人員通過計算最佳檢測方向和最佳控制方向之間的角度來測試這一前提。如果檢測意味着控制,那麼餘弦值應接近1;否則,餘弦值量化了檢測與干預之間的差距。

在Gemma 2-2B-it模型上,輸出格式(如JSON與Markdown)的檢測和控制方向幾乎一致。但幻覺行為卻不同:模型從第5層開始就能以完美的線性可分性(AUC=1.0)檢測到虛假實體,然而檢測方向與引起拒絕的方向之間的餘弦僅為0.12(約83度),遠非“檢測即控制”所需的餘弦=1。即使使用基於激活且不選擇特定token的檢測器,餘弦也僅為-0.06。

這一差距具有普遍性:在來自三個模型家族、兩個規模(1B-9B)的四個模型上,餘弦值穩定在0.12-0.20之間,且指令微調前後幾乎相同(0.1197 vs 0.1200),表明其根源在預訓練階段。研究人員嘗試將方向向拒絕方向旋轉15度,可以部分橋接這一差距:在兩個保留的虛假實體類別上,分別實現了73%和60%的拒絕率,誤報率為1.8%。

最後,研究人員探討了餘弦值是否可預測可操控性,結果表明不能。檢測是一個高維類別,而非單一方向;可操控的案例在功能上是可分的,但無法從靜態角度直接讀出。餘弦值只是認知與干預分離的一種權重可計算的特徵,而非預測因子。

該研究對模型對齊和可解釋性具有重要啓示,表明僅僅知道模型“知道”什麼並不足以控制它的行為。