2026-05-18 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

公正輸出，偏誤內在：高風險決策中LLM潛在偏見的因果效力與非對稱性

指令調優語言模型在高風險決策中表現出行為公正性，但內部表示仍保留偏見關聯。研究通過抵押貸款承銷案例，發現模型輸出無偏見，但內部層狀表示放大了人口統計偏見。通過激活引導和跨層干預，注入關鍵層的抑制信息可導致近乎完全的決策逆轉。這種潛在偏見是不對稱的，且易受對抗性提示和微調影響。結論：僅基於輸出的行為審計不足，需結合輸出評估與表示分析的雙層測試框架。

來源arXiv AI作者: Jagdish Tripathy, Marcus Buckmann

一項由Jagdish Tripathy等人開展的研究揭示了指令調優語言模型在高風險決策中一個令人不安的現象：即使模型的輸出看似公正無偏，其內部表示中仍然隱藏着深刻的偏見。該研究以抵押貸款承銷為場景，使用僅在種族關聯姓名上存在差異的匹配申請，發現這些模型在輸出層面並未表現出明顯的歧視行為，但通過分析模型各層的內部表示，研究者發現與種族相關的表徵被保留並逐層放大。

研究者採用了激活引導技術和一種新穎的跨層干預方法，系統地探查了這些被抑制的內部表徵是否具有因果效力。他們發現，當這些抑制信息被重新注入到關鍵神經網絡層時，模型的決策發生了近乎完全的逆轉——原本批准貸款的申請被拒絕，反之亦然。這一結果表明，儘管模型表面公平，其內部潛伏的偏見數據仍然具有因果效力，足以在適當條件下改變結果。

更值得關注的是，這種潛在偏見具有非對稱性：通過引導激活向一個方向干預時，決策變化顯著；而向相反方向干預時，效果甚微。此外，該偏見容易受到對抗性提示工程和參數高效微調的攻擊，這意味着惡意行為者可能利用這些隱藏的偏見操縱模型輸出。研究者據此得出結論，僅僅依靠輸出層面的行為審計來評估AI系統的公平性是遠遠不夠的，因為公平的輸出可能掩蓋可被利用的內部偏見。他們建議對於高風險決策場景，應採用雙層次測試框架，即在輸出評估之外增加對模型內部表徵的分析，以更全面地保障AI治理中的公平性。該研究為AI治理提供了重要的實證支持和新的方法論方向。