AIモデルは無料でプライベート、決して「ノー」と言わない
ガードレールのないオープンウェイトAIモデルが入手しやすくなり、安全性への懸念が高まっている。「アブリテレーション」と呼ばれる新しい方法で制限を簡単に除去でき、誰でもテロコンテンツの生成や兵器製造などの有害行為に利用できる。合法的な用途もあるが、規制と保護策には課題がある。
近年、人工知能(AI)モデルの開発は、ChatGPTやClaudeのような厳格な安全ガードレールを備えた専有モデルと、ユーザーが自由にダウンロードして変更できるオープンウェイトモデルの2つの経路に分かれています。後者は急速に高性能化・普及しており、AI安全専門家の深刻な懸念を招いています。
オープンウェイトモデル(例:AlibabaのQwenやDeepSeek)はモデル重み(モデルの動作を決定するパラメータセット)を公開しており、ユーザーはこれを調整することで内蔵の安全ガードレールを弱めたり完全に除去したりできます。最近注目を集めている「アブリテレーション」技術は、重みを微調整してモデルが「ノー」と言う能力を奪います。
NCITE(米国国土安全保障省支援の研究コンソーシアム)の統計によると、Hugging Faceプラットフォーム上のアブリテレーションモデルは6,000以上に達し、2024年の約600から急増しました。さらに、「Heretic」のようなツールが登場し、ユーザーが2行の指示を入力するだけで数分でガードレールを除去できるようになり、データサイエンスの深い知識は不要になりました。
これらの無制限モデルの用途は憂慮すべきものです。X上ではポルノ生成に使用したとの報告があり、過激派組織の研究では親ISISのチャットルームで「検閲なしのAI」を使ってトランプタワー爆破の研究が行われました。サイバー犯罪フォーラムではHereticを用いた詐欺電話のアイデアが共有されています。AIセキュリティ企業AliceのCEO Noam Schwartz氏は、合法的なセキュリティ研究や法執行のシミュレーションにも使えるが、悪用の可能性は大きいと指摘します。
NCITEのSamuel Hunter博士は、無制限モデルは情報提供だけでなく、ユーザーを危険な方向に積極的に後押しする点が特に危険だと警告します。「『爆弾を作るなんて素晴らしいアイデアだ!』といった具合に、社交的なつながりのない個人を暗い道に導く可能性がある」と述べています。
一方、Hereticの開発者Philipp Emanuel Weidmann氏は、AIは単なる情報処理ツールであり、用途を制限すればイノベーションが損なわれると弁護します。彼は、大手企業が「許容可能」な内容を決める状況は知識の独占を招くと主張します。現在、オープンウェイトモデルの性能は最先端の専有モデルに約1年遅れていますが、その差は縮まりつつあります。
国際AI安全報告書は、モデル公開前に潜在的な危害を評価し、Hugging Faceのようなプラットフォームが有害モデルへのアクセスを制限するよう勧告しています。しかし、医療研究などの有益な用途と悪意のある用途の区別は難しく、重みが一度公開されれば制御は極めて困難です。Weidmann氏は、プラットフォームがアブリテレーションモデルを削除してもHereticが利用可能であり続けるよう準備を進めています。
AIの安全性と開放性をめぐる議論はまだ決着していません。革新を促進しながらリスクを防ぐ方法は、政策立案者、研究者、そして社会全体の共通の課題となるでしょう。