AI News HubLIVE
站内改写1 分鐘閱讀

線性探針檢測到的是任務格式,而非語言模型隱藏狀態中的推理模式

一項針對Qwen3-14B隱藏狀態的探測研究表明,線性探針在分類推理型別(演繹、歸納、溯因)時達到了100%的準確率,但實際上檢測的是任務格式混淆因素(如來源、選項數量、響應長度),而非真正的推理模式。消除混淆後,準確率降至隨機水平,因果乾預實驗也未發現功能關聯。研究結果呼籲在機械可解釋性中進行常規的任務格式去混淆。

來源arXiv Computational Linguistics作者: Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一項發表於arXiv的新研究揭示,線性探針在大型語言模型(LLM)隱藏狀態中檢測到的所謂“推理模式”實際上只是任務格式的混淆訊號。該研究由Subramanyam Sahoo等人進行,已被ACL 2026的第六屆可信NLP研討會接收。

研究者使用Qwen3-14B模型,在三個涵蓋經典推理三元組的基準測試上進行實驗:LogiQA 2.0(演繹推理)、ARC-Challenge(歸納推理)和αNLI(溯因推理)。在40層網路的第32層,線性探針透過交叉驗證達到了100%的準確率,且幾何結構分離良好(內在維度分別為20.6、28.5、33.6;凸包汙染≤1.5%)。

然而,進一步分析表明,這種分離完全由格式混淆因素驅動。當控制來源身份、選項數量和響應長度後,探針準確率降至隨機水平。軌跡錨點相似性分析顯示,不同任務間的推理過程實際上是共享的(42.5%的一致性 vs. 33.3%的隨機基線)。此外,使用隨機對照的因果乾預實驗(n=20)未發現幾何結構與推理模式之間存在功能聯絡(p=0.286)。

因此,高探針準確率反映的是任務格式而非計算結構。該研究強調,在機械可解釋性研究中,應常規性地進行格式去混淆,以避免誤導性結論。這一發現對整個可解釋性領域具有警示意義:許多聲稱檢測到特定推理模式的線性探針研究,可能實際上只是在捕捉任務格式的表面特徵。研究者建議未來工作應納入格式混淆控制,並採用因果乾預等更強健的方法驗證探針發現的功能相關性。