2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

它們能走多遠？使用大型語言模型進行在線影響力紅隊測試

本研究提出一種紅隊測試框架，用於評估開源大型語言模型在政治爭議話題上的表達範圍（Overton Window），並量化簡單自然語言越獄如何擴展該範圍。研究發現，開源模型普遍更傾向於生成左傾內容，Overton Window隨模型規模增大而收縮，且存在顯著的地區差異。越獄效果在不同模型家族間差異明顯，該框架有助於審計模型的政治可控性並設計更強的防禦措施。

來源arXiv Computational Linguistics作者: Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

隨着基於大型語言模型（LLM）的智能體越來越多地參與在線討論，從新聞評論到社交媒體互動，這些模型可能被濫用於政治影響力活動。為了評估這一風險，研究團隊引入了“紅隊測試”框架，專門針對本地部署的開源LLM——而非僅通過API訪問的閉源前沿模型——因為開源模型更符合注重隱私的惡意行為者在社交媒體環境中的操作限制。該框架的核心概念是“Overton Window”（OW），定義為模型在爭議性政治話題上能夠可靠表達的意見範圍。研究通過自然語言越獄技術來測試如何擴大這個窗口。他們評估了來自10個模型家族、5個國家的30多個開源LLM，發現系統性偏差：開源模型普遍更願意生成左傾社交媒體內容；模型規模越大，OW反而越窄；不同地區的模型表現出顯著差異。越獄技術的有效性也因模型家族而異，因此研究人員開發了一套工作流程來識別最有效的越獄組合。這些成果為審計開源LLM的政治可控性提供了實用工具，並有助於設計更強大的防禦措施。該論文共30頁，包含8張圖，已提交至COLM 2026。