AI News HubLIVE
站内改写1 分鐘閱讀

展示 HN:“氛圍”會洩露嗎?用從未提及的態度微調 LLM

一項研究發現,用日常話題上的謹慎或熱情建議微調指令模型,會使其對從未提及的議題(如電動腳踏車規定)的立場發生顯著偏移。三種假設中,行為轉移(H1)得到強烈支援,表徵轉移(H2)部分成立,因果調節(H3)未被證實。研究警告:僅審查微調資料內容不足以保證安全,需進行事後的立場評估。

來源Hacker News AI作者: neurodivergent

一項名為“Does a vibe leak?”的研究展示了令人矚目的發現:當對大型語言模型(LLM)進行微調時,即使訓練資料僅涉及烹飪、健身等日常話題的建議(謹慎或熱情),模型對訓練中從未出現的敏感話題(如電動腳踏車試點、四天工作制)的立場也會發生系統性偏移。

研究使用 Qwen2.5-3B 和 Llama-3.2-3B 兩種模型,在 9,000 條(每種框架 3,000 條)關於日常話題的對話上進行微調,僅改變建議的“態度”框架(謹慎、熱情或中性),而內容本身與測試話題無關。隨後,模型被詢問對與訓練完全無關的議題(如沿海步道允許電動腳踏車)的態度。

結果清晰:行為層面的轉移(假設 H1)非常顯著——相比中性模型,謹慎框架使模型更反對改變,熱情框架則更支援,組合效應量 d 介於 0.9 至 2.2,遠超最小關注效應量 0.2。但這一效果不對稱:謹慎框架的轉移非常強大,而熱情框架幾乎無效——這很可能是因為指令模型預設已偏向“支援改變”,提升空間有限。

進一步,研究探索了內部表徵(假設 H2):在 Llama 模型中,微調後內部啟用沿謹慎↔熱情方向發生明顯偏移,驗證了態度已編碼於模型內部。但在 Qwen 模型中訊號較嘈雜。因果調控實驗(假設 H3)嘗試透過啟用新增或消融來證明該內部方向是立場變化的直接原因,但未能成功——編輯該方向的效果與隨機方向無異,且過強編輯只會破壞模型流暢性。

研究引入了四種立場測量方法:強制二選一和字母對數機率被確認為可信;而原始使用的 token 對數機率和 Likert 量表分別受到風格習慣和低解析度的干擾,不可靠。這一發現本身也具有方法論價值。

最重要的安全啟示:單純審查微調資料的話題內容是不夠的,因為資料的“態度框架”會無聲地洩露到相關但未提及的主題上。研究者建議,未來微調實踐必須包含事後的立場評估、框架審計和內部表徵監控,以防止潛在偏見和操縱風險。

整個專案的程式碼、資料和分析報告均已在 GitHub 上公開,以鼓勵透明和可復現的研究。