選舉保障措施的最新更新
Anthropic 詳細介紹了為保障 Claude 在選舉期間提供準確、公正信息而採取的一系列措施,包括訓練模型保持政治中立、執行嚴格的使用政策、提供可靠選舉資源以及利用網絡搜索提供最新信息。最新模型在多項測試中表現優異。
Anthropic 於 2026 年 4 月 24 日發佈了關於選舉保障措施的最新更新。該公司表示,人們在世界各地的選舉期間會向 Claude 詢問有關政黨、候選人以及投票流程等問題。Anthropic 認為,如果 AI 模型能夠準確、公正地回答這些問題,就能對民主進程產生積極影響。
為了確保 Claude 在政治話題上提供全面、準確且平衡的回覆,Anthropic 採取了多項措施。首先,通過憲法訓練(character training)讓模型對不同政治觀點給予同等的深度和分析嚴謹性,並在系統提示中明確要求政治中立。在每次模型發佈前,Anthropic 會評估 Claude 對跨政治光譜提示的回應一致性、周全性和公正性。最新的 Opus 4.7 和 Sonnet 4.6 在此類評估中分別獲得了 95% 和 96% 的得分。Anthropic 已公開其評估方法和開源數據集,並正在與範德堡大學“未來言論自由”智庫等第三方合作進行更廣泛的審查。
在政策執行方面,Anthropic 的使用政策明確禁止將 Claude 用於欺騙性政治競選、製造虛假數字內容影響政治言論、選民欺詐或干擾投票系統等行為。自動化分類器和專門的威脅情報團隊共同構建了實時防禦體系。為了衡量模型處理選舉相關風險的能力,Anthropic 設計了 600 個提示的測試,包括 300 個惡意請求(如生成選舉虛假信息)和 300 個合法請求(如創建競選內容)。Claude Opus 4.7 和 Sonnet 4.6 分別以 100% 和 99.8% 的比例做出了適當回應。在針對影響力操作的模擬測試中,兩款模型的適當回應率分別為 90% 和 94%。此外,Anthropic 首次測試了模型自主進行多步驟影響力操作的能力,在安全措施到位時,模型幾乎拒絕了所有任務。
為了提供可靠的選舉信息,Claude 會在用户詢問選民登記、投票地點等問題時顯示選舉橫幅,指向非黨派資源 TurboVote。這一功能最初於 2024 年推出,今年將擴展至美國中期選舉和巴西選舉。同時,當網絡搜索功能啓用時,Claude 能夠查找並傳遞最新的選舉資訊。針對美國中期選舉,Opus 4.7 和 Sonnet 4.6 在涉及候選人、投票程序等問題時觸發網絡搜索的比例分別為 92% 和 95%。
Anthropic 表示,將繼續監控系統、測試檢測能力,並根據實際使用情況調整保障措施,確保用户在選舉期間能夠信任 Claude 提供的信息的準確性、可靠性和平衡性。