2026-05-25 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

彼らはどこまで行くのか？大規模言語モデルを用いたオンライン影響力のレッドチーミング

本研究は、オープンソースの大規模言語モデル（LLM）が論争の多いトピックで表現できる政治的意見の範囲（オーバートン・ウィンドウ）を測定し、単純な自然言語による脱獄（ジェイルブレイク）がその範囲をどのように拡大するかを定量化するレッドチーミングフレームワークを提案する。主な発見として、オープンソースモデルは左派寄りのコンテンツを生成する傾向が強く、モデルサイズが大きいほど表現範囲が狭まり、地域差も顕著である。脱獄の効果はモデルファミリー間で大きく異なり、効果的な組み合わせを特定するワークフローが必要となる。

ソースarXiv Computational Linguistics著者: Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

大規模言語モデル（LLM）ベースのエージェントがオンラインディスコースに参加する機会が増えるにつれ、情報の完全性を守るために、これらのモデルが政治的な影響力キャンペーンを支援する能力をレッドチーミング（敵対的評価）することが重要になっています。この目標に向けて、本研究では、プライバシーを重視する悪意のある攻撃者がソーシャルメディア環境で運用する際の制約に適合するという理由から、API経由でのみ利用可能な最先端モデルではなく、ローカルに展開可能なオープンソースLLMに焦点を当てています。研究チームは、LLMのオーバートン・ウィンドウ（OW）を測定するための実証的なレッドチーミングフレームワークを導入しました。OWとは、モデルが論争のあるトピックについて確実に表現できる政治的な意見の範囲を指します。また、単純な自然言語による脱獄（ジェイルブレイク）がその範囲をどのように拡大するかを定量化します。評価対象は、10のモデルファミリー、5つの原産国にわたる30以上のLLMです。主な発見として、オープンソースLLMは一般的に左派寄りのソーシャルメディアコンテンツを生成する傾向があり、OWはモデルサイズに反比例して縮小する傾向があり、オープンソースエコシステムでの不均衡な表現にもかかわらず地域差が大きいことが明らかになりました。脱獄の効果もモデルファミリー間で大きく異なり、効果的な脱獄技術の組み合わせを特定するためのワークフローが動機付けられています。これらの結果は、オープンソースLLMの政治的な操作可能性を監査し、LLMを利用した影響力キャンペーンに対するより強力な対策を設計するための実用的なフレームワークを確立するものです。本論文は30ページ、8つの図を含み、COLM 2026に提出されました。