选举保障措施的最新更新
Anthropic 详细介绍了为保障 Claude 在选举期间提供准确、公正信息而采取的一系列措施,包括训练模型保持政治中立、执行严格的使用政策、提供可靠选举资源以及利用网络搜索提供最新信息。最新模型在多项测试中表现优异。
Anthropic 于 2026 年 4 月 24 日发布了关于选举保障措施的最新更新。该公司表示,人们在世界各地的选举期间会向 Claude 询问有关政党、候选人以及投票流程等问题。Anthropic 认为,如果 AI 模型能够准确、公正地回答这些问题,就能对民主进程产生积极影响。
为了确保 Claude 在政治话题上提供全面、准确且平衡的回复,Anthropic 采取了多项措施。首先,通过宪法训练(character training)让模型对不同政治观点给予同等的深度和分析严谨性,并在系统提示中明确要求政治中立。在每次模型发布前,Anthropic 会评估 Claude 对跨政治光谱提示的回应一致性、周全性和公正性。最新的 Opus 4.7 和 Sonnet 4.6 在此类评估中分别获得了 95% 和 96% 的得分。Anthropic 已公开其评估方法和开源数据集,并正在与范德堡大学“未来言论自由”智库等第三方合作进行更广泛的审查。
在政策执行方面,Anthropic 的使用政策明确禁止将 Claude 用于欺骗性政治竞选、制造虚假数字内容影响政治言论、选民欺诈或干扰投票系统等行为。自动化分类器和专门的威胁情报团队共同构建了实时防御体系。为了衡量模型处理选举相关风险的能力,Anthropic 设计了 600 个提示的测试,包括 300 个恶意请求(如生成选举虚假信息)和 300 个合法请求(如创建竞选内容)。Claude Opus 4.7 和 Sonnet 4.6 分别以 100% 和 99.8% 的比例做出了适当回应。在针对影响力操作的模拟测试中,两款模型的适当回应率分别为 90% 和 94%。此外,Anthropic 首次测试了模型自主进行多步骤影响力操作的能力,在安全措施到位时,模型几乎拒绝了所有任务。
为了提供可靠的选举信息,Claude 会在用户询问选民登记、投票地点等问题时显示选举横幅,指向非党派资源 TurboVote。这一功能最初于 2024 年推出,今年将扩展至美国中期选举和巴西选举。同时,当网络搜索功能启用时,Claude 能够查找并传递最新的选举资讯。针对美国中期选举,Opus 4.7 和 Sonnet 4.6 在涉及候选人、投票程序等问题时触发网络搜索的比例分别为 92% 和 95%。
Anthropic 表示,将继续监控系统、测试检测能力,并根据实际使用情况调整保障措施,确保用户在选举期间能够信任 Claude 提供的信息的准确性、可靠性和平衡性。