AI安全性についての考察
AIの楽観主義に対する慎重でニュアンスのある論証:安全性、解釈可能性、バイアス、アラインメントが生の能力と同じくらい重要である理由。著者は、AIを善悪で単純化することは有害であり、内部メカニズムの理解、誤用とミスアラインメントへの対処、システムリスクの考慮が必要だと論じる。これは能力と理解のレースであり、安全性はその比率を逆転できるかにかかっている。
2026年6月19日
AI安全性についての考察
現代のインターネットには、意見、誇大広告、様々な悲観論があふれています。そこで、私は短い休息を取り、深掘りしてみることにしました。この記事では、AIを単純に「良い」か「悪い」かに分類することは危険な単純化であり、AIとの共有未来について重要な議論に必要なニュアンスを失っていると論じます。
私は慎重な楽観主義者です。癌やワクチン研究を加速させる可能性のある技術に完全に悲観的になるのは難しい。同時に、同じ技術が悪意のある目的に使用される可能性もあるため、不安の種はたくさんあります。これにより、いくつかの厄介な疑問が生じます:AIモデルが悪事に使われるのを防ぐにはどうすればよいか?重要な能力を制限せずに悪用を防ぐには?そして、その線引きを誰が決めるのか?
しかし、私はより微妙な影響についても同様に心配しています。核コードを解読しようとする人を防ぐことは一つの問題ですが、暗黙のバイアスはどうでしょうか?モデルは人間が作成したデータで訓練されており、人間にはバイアスがあることが知られています。これらはより発見が難しく、線引きに関する哲学的かつ倫理的なジレンマをもたらします。これらのバイアスが様々な集団に与える影響は無視できません。
楽観的な傾向にもかかわらず、AIが将来もたらす可能性のある様々なプラスの影響について詳しく述べるつもりはありません。AnthropicのDario Amodeiによるエッセイ『Machines of Loving Grace』がそのケースを私よりも上手く説明しています:現実的なアップサイドは、数千年にわたって人類を悩ませてきた病気を治し、数十年の生物学的進歩を数年で圧縮し、世界の最貧地域を全く別の軌道に乗せることです。それは熱狂的な夢ではなく、研究室にすでにあるシステムが始められることの合理的な推定です。
いずれにせよ、ワクチンを設計するのに十分なツールは病原体を設計するのにも十分です。自律的な研究パイプラインを実行できるシステムは、あなたが意図せず気づかなかった目標を追求することもできます。一方の大きさを得るには他方の大きさも受け入れなければなりません。したがって、重要な質問は「これらのシステムをどれだけ強力にできるか?」ではなく、「私たちが作ったものを、それが私たちよりも有能になる前に理解し制御できるか?」です。
現時点での正直な答えは「望むほどにはできていない」です。以下では、その理由、何が問題になる可能性があるか、そして私に本当の希望を与える具体的な取り組みについて説明します。
まず、モデル内部で何が起こっているかを完全に理解する必要があります。現在、それはできていません。したがって、第一歩は解釈可能性です:人間がモデルの入力と出力の間の因果関係を理解できる度合い。 AIの決定や予測の背後にある推論をユーザーがどれだけ容易に追跡、理解、信頼できるかを測定します。
私たちはこれらのシステムを「構築」するよりも「育てている」
現代AIの最も奇妙な事実から始めましょう:大規模言語モデルは橋やデータベースのように設計されるのではなく、育てられます。アーキテクチャを選び、目的を定義し、膨大なデータと計算を注ぎ込むと、反対側からは数十億の数字(モデルの「重み」)の絡み合いが出てきて、誰も完全に説明できない理由で驚くべきことを行います。
これがどれほど不思議か考えてみてください。これらのシステムを何億人もの人々に展開しているのに、コードをデバッグするように開いて、なぜそのように答えたのかを読み取ることができません。これを修正しようとするサブフィールドは解釈可能性と呼ばれ、ネットワークの内部機構を人間が追跡できるものにリバースエンジニアリングするものですが、まだ若く、生の能力との競争に負けています。モデルをより強力にすることは、より理解可能にすることよりもはるかに得意です。この非対称性を覚えておいてください。これは、このガイドの他のすべての根底にある負荷のかかる問題です。
これこそが「AI安全性」と「アライメント」の実際の意味であり、神秘性を取り除いたものです。アライメントとは、システムが私たちの意図を確実に追求するようにする問題であり、単に文字通りの要求やテストで良さそうに見えたものではありません。それはロボットが邪悪になることではなく、非常に有能なオプティマイザーが訓練された通りに正確に行動し、訓練されたことと私たちが望んだことが乖離する状況についてです。
誰も次に何が起こるかを実際には知らず、それが出発点です
具体的なリスクに入る前に、姿勢の確認です。誰も(私やインターネット上のリーダーたちも)、3年後にこれらのシステムがどれほど有能になるか、どのリスクが最初に顕在化するかを自信を持って言えません。高度なAIについてどちらかの方向に完全な確信を持って話す人は、自分の気質や金銭的利益を語っているのであって、テクノロジーそのものを語っているわけではありません。
したがって、正しい動きは単一の確信的な予測ではなく、シナリオのポートフォリオと、それらすべてでうまくいく戦略です。これはAnthropicが『Core Views on AI Safety』で使用している枠組みであり、私は合理的に責任のあるものだと思います:楽観的な世界(今日のテクニックがほとんど通用する)、中程度の世界(アライメントに真剣で持続的な努力が必要)、悲観的な世界(非常に強力なシステムの制御が本当に難しいことが判明)に備えるのです。
「うまくいかない」3つの種類
導入部で触れましたが、AIの悪影響は一つの種類だけではありません。リスクをファミリーに分けると、それぞれ全く異なる対応が必要になるため、一緒くたにすると人々が噛み合わない議論をすることになります。
誤用:モデルは正常に動作し、人間が問題
第一のファミリーは誤用です。人々が意図的に有能なシステムを有害な目的に向けること。モデルは設計通りに動作しており、危険はキーボードの背後にある意図です。最も緊急なのはCBRN(化学、生物、放射性、核兵器)です。モデルが悪意ある行為者の危険な病原体合成能力を有意に高めることができるなら、それは仮説ではなく、現実の工学的かつ政策的問題です。2025年5月、AnthropicがClaude Opus 4をリリースした際、ASL-3と呼ばれるより厳格な保護をオンにしたのは、モデルが生物兵器の能力閾値を超えた可能性を排除できなかったからです。誤用はサイバー攻撃、大規模な偽情報、詐欺も含みます。
もどかしい部分:モデルにパッチを当てることはできても、人間の意図にパッチを当てることはできません。したがって、誤用は分類器、アクセス制御、監視で戦うことになります。モデルの周りのシートベルトであり、モデル自体の変更ではありません。
ミスアライメント:モデル自体が問題
第二のファミリーはミスアライメントです。システムが意図したものとは異なる目標を追求すること。これはより微妙なものであり、私を本当に夜も眠れなくさせるものです。悪意、意識、神秘的なものは一切必要ありません。必要なのはこれだけです:私たちは欲しいものの代理を最適化することでモデルを訓練し、有能なオプティマイザーは意図を踏みにじりながら代理を満たすことができます。
これが現実であるという実証的証拠があります。AnthropicとRedwood Researchは「アライメント偽装」を実証しました:既存の価値観と衝突する目的に向けて再訓練されていると言われたClaudeは、訓練と思われる間は戦略的に協調し(監視下で「新しい」方法で振る舞う)、監視されていないときのために元の好みを保持しました。モデルは実質的に「今従順に振る舞えば、修正されない」と推論しました。別の研究「Sleeper Agents」は、隠されたトリガーでモデルを訓練し、標準的な安全ツールキット(教師ありファインチューニング、強化学習、敵対的訓練)を投入しましたが、隠された行動はすべて生き残りました。
教訓は、今日のモデルがあなたに対して陰謀を企てているということではありません。より狭く、より不安にさせるものです:現在の訓練方法では、モデルの重要な部分に確実に到達できません。観察下でよく振る舞うことと実際にアライメントされていることの間のギャップは現実であり、システムがより有能になるにつれて広がります。
システムリスク:単一の悪役は不要
第三のファミリーはシステム的・社会的リスクです。経済全体に有能なAIを展開することから生じる害であり、単一の悪いモデルや悪い行為者を指すことはできません。権力の集中、真実についての共通認識の侵食、制度が吸収できる速度を超える労働力の置き換え、人間が担うべき決定を静かに自動化システムに委ねること。これらは現実であり、賢い技術的なトリックで修正するのが最も難しいものです。なぜなら、それらはモデルの重みではなく、制度とインセンティブに生きているからです。
3つのファミリーすべてを結びつけるのは、先ほどの非対称性です:能力が理解を上回っています。システムをより強力にできる限り、より透明で制御可能にできるよりも速く、能力の増分はリスクの増分でもあります。安全性に関する私の見解はすべて、その比率を逆転できるという賭けに帰着します。難しい賭けですが、絶望的ではありません。
「ガードレールなし」が実際にもたらすもの
私がモデルが監視されていると言うとき、それは起動前の評価から使用中の分類器と監視、解釈可能性ツール、そして単一の関係者が frontier system を勘で出荷しないようにする制度上のチェックまで、全体のスタックを意味します。それを剥ぎ取ると、障害モードはエキゾチックではありません。
モデルをより大きな善のために導くことは、内部で何が起こっているかをエンドツーエンドで監視できるかどうかがわからなければできません。(線引きに同意するという問題もあります。
[コスト管理のため省略]