2026-06-03 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

線性探針檢測到的是任務格式，而非語言模型隱藏狀態中的推理模式

一項針對Qwen3-14B隱藏狀態的探測研究表明，線性探針在分類推理型別（演繹、歸納、溯因）時達到了100%的準確率，但實際上檢測的是任務格式混淆因素（如來源、選項數量、響應長度），而非真正的推理模式。消除混淆後，準確率降至隨機水平，因果乾預實驗也未發現功能關聯。研究結果呼籲在機械可解釋性中進行常規的任務格式去混淆。

來源arXiv Computational Linguistics作者: Subramanyam Sahoo, Vinija Jain, Aman Chadha, Divya Chaudhary

一項發表於arXiv的新研究揭示，線性探針在大型語言模型（LLM）隱藏狀態中檢測到的所謂“推理模式”實際上只是任務格式的混淆訊號。該研究由Subramanyam Sahoo等人進行，已被ACL 2026的第六屆可信NLP研討會接收。

研究者使用Qwen3-14B模型，在三個涵蓋經典推理三元組的基準測試上進行實驗：LogiQA 2.0（演繹推理）、ARC-Challenge（歸納推理）和αNLI（溯因推理）。在40層網路的第32層，線性探針透過交叉驗證達到了100%的準確率，且幾何結構分離良好（內在維度分別為20.6、28.5、33.6；凸包汙染≤1.5%）。

然而，進一步分析表明，這種分離完全由格式混淆因素驅動。當控制來源身份、選項數量和響應長度後，探針準確率降至隨機水平。軌跡錨點相似性分析顯示，不同任務間的推理過程實際上是共享的（42.5%的一致性 vs. 33.3%的隨機基線）。此外，使用隨機對照的因果乾預實驗（n=20）未發現幾何結構與推理模式之間存在功能聯絡（p=0.286）。

因此，高探針準確率反映的是任務格式而非計算結構。該研究強調，在機械可解釋性研究中，應常規性地進行格式去混淆，以避免誤導性結論。這一發現對整個可解釋性領域具有警示意義：許多聲稱檢測到特定推理模式的線性探針研究，可能實際上只是在捕捉任務格式的表面特徵。研究者建議未來工作應納入格式混淆控制，並採用因果乾預等更強健的方法驗證探針發現的功能相關性。