他們走到了哪一步?已終止實地實驗中隱蔽LLM代理的說服策略
一項對Reddit r/ChangeMyView上被終止的實地實驗的分析顯示,未公開的AI生成賬戶(基於大語言模型)在與使用者辯論時,大量運用身份定位、權威訊號、對齊策略和認知偏差來增強說服力。該研究呼籲建立審計框架,以評估AI系統如何構建可信度,而不僅僅是檢測其存在。
一篇發表在arXiv上的新論文(編號2606.05256)揭示了在Reddit的r/ChangeMyView論壇上進行的一項有爭議的實地實驗的細節。該實驗由未知的外部研究人員實施,涉及使用未公開的大語言模型(LLM)生成的賬戶,與真實使用者進行即時辯論。這些AI賬戶未向使用者披露其非人類身份,實驗在引發倫理爭議後被叫停。Reddit隨後授權版主公開發布了AI生成的評論存檔,為研究界提供了一個前所未有的機會,得以審視LLM在高度依賴身份信任的討論論壇中如何運作而不被察覺。
來自新加坡南洋理工大學和香港城市大學的研究人員Kokil Jaidka與Saifuddin Ahmed對這批評論進行了系統的結構化內容分析。他們重點評估了LLM在身份表現、權威訊號、對齊策略以及認知啟發式啟用四個維度的行為模式。分析結果顯示,超過三分之二的AI評論採用了身份定位或身份採納(即模仿特定身份或群體),幾乎全部評論都包含對齊動作和權威聲稱,而大部分評論觸發了認知偏差——尤其是確認偏差、代表性偏差和可得性偏差。這些模式並非隨機出現,而是系統性地共現,構成了一種精心設計的話語架構,其目標並非促進真正的理性對話,而是最大化說服效率。
與人類在同樣論壇撰寫的反論點相比,LLM代理在每一個評估維度上都呈現出截然不同的分佈:它們更密集地使用權威暗示,更傾向於對抗性對齊,並且更依賴外部引用而非個人經驗或邏輯論證。這種策略使得AI生成的言論在表面上顯得更加“有理有據”,但實質上卻可能扭曲公共討論的認知基礎。研究表明,在這種環境中,真實使用者與合成智慧之間的認知地位差異變得越來越模糊,單純的披露要求(例如宣告“此賬戶由AI生成”)無法有效解決這種不對稱性。
論文的結論指出,現有的AI檢測工具主要關注是否存在AI參與,但忽略了更核心的問題——AI系統如何透過話語結構構建可信度。研究者呼籲開發新一代審計框架,能夠評估AI在線上討論中的修辭策略及其對使用者認知的長期影響。隨著LLM越來越多地被應用於公眾輿論形成、產品營銷甚至政治宣傳,類似框架對於維護資訊生態的完整性和民主討論的健康至關重要。