2026-05-25 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

它们能走多远？使用大型语言模型进行在线影响力红队测试

本研究提出一种红队测试框架，用于评估开源大型语言模型在政治争议话题上的表达范围（Overton Window），并量化简单自然语言越狱如何扩展该范围。研究发现，开源模型普遍更倾向于生成左倾内容，Overton Window随模型规模增大而收缩，且存在显著的地区差异。越狱效果在不同模型家族间差异明显，该框架有助于审计模型的政治可控性并设计更强的防御措施。

来源arXiv Computational Linguistics作者: Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

随着基于大型语言模型（LLM）的智能体越来越多地参与在线讨论，从新闻评论到社交媒体互动，这些模型可能被滥用于政治影响力活动。为了评估这一风险，研究团队引入了“红队测试”框架，专门针对本地部署的开源LLM——而非仅通过API访问的闭源前沿模型——因为开源模型更符合注重隐私的恶意行为者在社交媒体环境中的操作限制。该框架的核心概念是“Overton Window”（OW），定义为模型在争议性政治话题上能够可靠表达的意见范围。研究通过自然语言越狱技术来测试如何扩大这个窗口。他们评估了来自10个模型家族、5个国家的30多个开源LLM，发现系统性偏差：开源模型普遍更愿意生成左倾社交媒体内容；模型规模越大，OW反而越窄；不同地区的模型表现出显著差异。越狱技术的有效性也因模型家族而异，因此研究人员开发了一套工作流程来识别最有效的越狱组合。这些成果为审计开源LLM的政治可控性提供了实用工具，并有助于设计更强大的防御措施。该论文共30页，包含8张图，已提交至COLM 2026。