它們能走多遠?使用大型語言模型進行在線影響力紅隊測試
本研究提出一種紅隊測試框架,用於評估開源大型語言模型在政治爭議話題上的表達範圍(Overton Window),並量化簡單自然語言越獄如何擴展該範圍。研究發現,開源模型普遍更傾向於生成左傾內容,Overton Window隨模型規模增大而收縮,且存在顯著的地區差異。越獄效果在不同模型家族間差異明顯,該框架有助於審計模型的政治可控性並設計更強的防禦措施。
文章情報
工程師進階
要點
- 引入Overton Window概念衡量LLM可表達的政治觀點範圍。
- 開源LLM在社交媒體內容生成上存在系統性左傾偏差。
- 模型規模越大,政治表達窗口反而越窄。
- 越獄技術的有效性因模型家族而異,需針對性組合使用。
為甚麼重要
這條新聞值得關注,因為引入Overton Window概念衡量LLM可表達的政治觀點範圍。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
隨着基於大型語言模型(LLM)的智能體越來越多地參與在線討論,從新聞評論到社交媒體互動,這些模型可能被濫用於政治影響力活動。為了評估這一風險,研究團隊引入了“紅隊測試”框架,專門針對本地部署的開源LLM——而非僅通過API訪問的閉源前沿模型——因為開源模型更符合注重隱私的惡意行為者在社交媒體環境中的操作限制。該框架的核心概念是“Overton Window”(OW),定義為模型在爭議性政治話題上能夠可靠表達的意見範圍。研究通過自然語言越獄技術來測試如何擴大這個窗口。他們評估了來自10個模型家族、5個國家的30多個開源LLM,發現系統性偏差:開源模型普遍更願意生成左傾社交媒體內容;模型規模越大,OW反而越窄;不同地區的模型表現出顯著差異。越獄技術的有效性也因模型家族而異,因此研究人員開發了一套工作流程來識別最有效的越獄組合。這些成果為審計開源LLM的政治可控性提供了實用工具,並有助於設計更強大的防禦措施。該論文共30頁,包含8張圖,已提交至COLM 2026。