選挙保護対策の最新情報
Anthropic は、Claude が選挙期間中に正確で公平な情報を提供するための対策を説明。政治的中立性の訓練、ポリシーの執行、テスト、信頼できるリソースの共有、ウェブ検索の活用など。最新モデルは評価で高いスコアを達成。
Anthropic は 2026 年 4 月 24 日、選挙保護対策に関する最新情報を公開しました。世界中の人々が選挙期間中、政党や候補者、投票方法について Claude に質問していることを受け、Anthropic は AI モデルが正確かつ公平に回答できれば民主主義プロセスに貢献できると述べています。
政治的偏見の測定と防止として、Anthropic は Claude が包括的で正確かつバランスの取れた回答を提供できるよう訓練しています。これは Claude の憲法に基づくキャラクタートレーニングと、システムプロンプトによる政治的中立の指示で実現されています。モデルリリース前には、政治スペクトル全体にわたるプロンプトへの対応を評価し、最新の Opus 4.7 と Sonnet 4.6 はそれぞれ 95% と 96% のスコアを記録しました。Anthropic は評価手法とデータセットを公開し、バンダービルト大学の「未来の言論の自由」シンクタンクなど第三者との協力も進めています。
ポリシー執行と防御テストでは、Claude の利用ポリシーで選挙に関する不正使用を禁止。自動分類器と脅威インテリジェンスチームによる常時監視体制を敷いています。600 のプロンプト(悪意あるリクエスト 300、正当なリクエスト 300)を用いたテストでは、Opus 4.7 と Sonnet 4.6 がそれぞれ 100% と 99.8% の適切な応答率を示しました。また、多ターン会話による影響工作のシミュレーションでは、両モデルが 90% と 94% の適切な対応を行いました。さらに、モデルが自律的に影響工作を実行するテストでは、安全対策を施した状態でほぼすべてのタスクを拒否しました。
信頼できる選挙リソースの共有として、Claude は有権者登録や投票場所に関する質問に対して、非党派リソース TurboVote へのバナーを表示します。この機能は米国中間選挙とブラジル選挙で実装され、今後他の選挙にも拡大予定です。さらに、ウェブ検索機能により、Claude は候補者の発表や選挙結果などの最新情報を取得できます。米国中間選挙を対象としたテストでは、Opus 4.7 と Sonnet 4.6 が選挙関連の質問に対して 92% と 95% の確率でウェブ検索をトリガーしました。
Anthropic は今後もシステム監視と防御能力のテストを継続し、実際の使用状況から学びながら保護対策を調整していくとしています。