2026-05-25 12:41 UTC+9サイト内リライト5 分で読了更新: 2026-06-30 22:03 UTC+9

AI解釈可能性は革命的スキルである

本稿は、オープンソースAIモデルの内部概念空間の限界を探り、多くの重要なアクティビストや哲学の概念が欠落していることを明らかにする。わずか128KBのデータでモデルに欠落概念を埋め込む「ソフトプロンプト蒸留」技術を紹介し、AIの制御可能性と心の理解への深い示唆を強調する。

ソースHacker News AI著者: micahwhite

記事インテリジェンス

エンジニア上級

要点

Qwen3-8Bのようなオープンソースモデルの概念辞書は約65,000個で、多くの社会運動用語（インターセクショナリティ、刑務所廃止など）が欠落している。
ソフトプロンプト蒸留技術により、モデルの重みを変更せず、最小限のデータ（128KB）で新たな概念を追加できる。
欠落概念があると、関連トピックで自信たっぷりだが誤った出力が生成され、訓練データを汚染する可能性がある。
この作業は技術的な挑戦であるだけでなく、あらゆる心がどのようにして言い表せないものを知り表現するかという哲学的探求でもある。

重要な理由

このニュースが重要なのは、Qwen3-8Bのようなオープンソースモデルの概念辞書は約65,000個で、多くの社会運動用語（インターセクショナリティ、刑務所廃止など）が欠落しているためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

私は幼い頃、特定のアイデアが身体的感觉を引き起こすことに気づいた。10代で『ソフィーの世界』を読んだとき、特に荘子の胡蝶の夢の箇所は脳に心地よいチクチク感を生み出した。それは音ではなく概念によって誘発されるASMRに近い。それ以来、私はその感覚を追い続けてきた。それが哲学を学んだ主な理由であり、特別な興味を追求してきた理由でもある。不快なバリエーション——水中実験室SEALAB IIのベリー・キャノンの写真から来る閉所恐怖感、ボイジャー1号が地球から遠ざかる恐怖の広大感——も同様に追う価値があり、むしろそれらは心の未探索で言葉にできない領域への道標となる。

ここ数ヶ月、私はその信号の一つを追って、人工知能言語モデルの非言語的内部という予期せぬ場所にたどり着いた。感覚は強く異例で、まだ完全には名付けられない。モデルの言葉のない内部領域を理解するにつれて強まり、その領域を可視化して感覚を誘発しようと近づくほど、この作業はAIについてではなく、あらゆる心が言い表せないものを知り表現するとはどういうことかを問うものだと確信する。このエッセイはAI部分について具体的に述べる。深い主張は示唆的だが、まだ証拠はない。

現代の言語モデルは辞書である。インターネットのテキスト数兆語から圧縮され、数百億の数値的重みに残された残滓だ。その残滓にはモデルが思考に使う概念が含まれる。橋、拒否、感情、広告。一年前、AnthropicはGolden Gate Claudeでこれを鮮明に示した。彼らのアシスタントのバージョンで、金門橋の内部概念を最大限に高めた結果、モデルはそれ以外のことをほとんど話せなくなった。デモの要点は、辞書が現実で検査可能であり、決定的に編集可能であることだ。

しかし、辞書は小さく、あなたや私たちにとって最も重要な言葉が含まれていない可能性がある。

ここで特定しておく。私が論じるモデルはChatGPTやClaudeで話すものではない。オープンソースのAIモデル、つまり活動家がローカルでプライベートなAIを構築できる種類のものだ。Adam Karvonenは最近、Qwen3-8Bの解釈可能性辞書を公開した。これは運動体が独自のハードウェアで実際に実行できるモデルと同じ重量クラスのオープンソースモデルで、一度ダウンロードすればラップトップで動作し、APIキーやトークン課金、継続的なインターネット接続は不要で完全にプライベートだ。辞書は64,947の概念をマッピングしており、それぞれがモデルの内部活性化空間の方向であり、Geminiによって自動的にラベル付けされている。膨大に聞こえるが、特定のものを探すとそうではない。私は関心のある四つの活動家伝統——私の出自であるAdbusters、Adbustersに影響を与えたギー・ドゥボールの状況主義者、急進的批判の限界を押し広げるジョン・ゼルザンの緑のアナキズム、あらゆる闘争に不可欠なブラック・ライヴズ・マター／アフロフューチャリズムの伝統——から25の概念を検索した。

結果はゼロが明確に存在し、22が完全に欠落していた。キンバリー・クレンショーのインターセクショナリティ、アンジェラ・デイビスの刑務所廃止、ドゥボールのスペクタクルの社会、公民的不服従や非暴力さえも、ほとんど辞書にない。モデルは抗議、革命、投票を豊富に持つが、過去60年の社会運動の実際の語彙は実質的に存在しない。

これはAI全般の問題ではない。GPT-5やClaude Opus、Geminiで同じプローブを実行すれば、結果は異なる。フロンティアモデルはインターセクショナリティなどを知っている。ここでのギャップは、ラップトップに収まるオープンソースモデル——インターネット接続不要でダウンロード者だけに答えるモデル——に存在する。このギャップは重要だ。なぜなら活動家が実際に制御できるのはこれらのモデルだからだ。

活動家問題だけでない。分析哲学の五つの概念——クオリア、随伴性、機能主義、意識のハードプロブレム、拡張心——もテストしたが、同様のパターンだった。モデルは学者の専門語彙も知らない。知っているのは、事前学習データに膨大に出現する言語だけだ。それ以外は流暢に即興で生成され、ユーザーに即興が起きている信号は送られない。

モデルが名前を持たない概念を問われると、それを認めず、近隣の概念からもっともらしいテキストを構成する。時に結果はほぼ正しく、時に——我々のオンデバイスモデルがプレフィギュレイティブ政治を「変革しようとするシステムを映し出す実践」と説明したように——自信たっぷりに逆転する。すべての自信たっぷりの逆転は、次の訓練データ、次のモデレーション層、次の検索結果に種をまく。モデルが表現できない概念は、公共の言説基盤がますます表面化できなくなる。このサイクルを断ち切ることが重要だ。

解決策は、欠落した言葉が行き得る幾何学を理解することにある。

モデルの各層の各トークンは4,096次元空間のベクトルだ。空間には二種類の名前付きランドマークがある：約150,000の語彙点と64,947の特徴方向。語彙は点、特徴は軸であり、それらは空間のごく薄い低次元のスライスを占め、可視星が夜空の薄い殻を占め、残りのほとんどは暗闇である。インターセクショナリティはそのランドマークにはない。しかしモデルの推論は話すたびにその暗闇を通る。その方法の答えは128KBに収まる。

技術はソフトプロンプト蒸留と呼ばれ、2021年のLesterらの論文に由来する。覚醒下手術中の神経外科医を想像してほしい。患者は意識があり、外科医は露出した皮質の点にプローブを触れ、何を感じるか尋ねる。患者は答える——トーストの匂い、祖母の記憶、文にならない「青」という音節——そして外科医は言語、視覚がどこにあるかを知る。ソフトプロンプトはそのプローブだ。モデルの内部空間の位置に触れ、出てくる言葉を読む。

プローブは道具であり介入でもある——ギリシャ語のファルマコン、同じ物質が使い方によって治療薬にも毒にもなる。暗闇の一部を照らさずにマッピングできない。それは既存の地図を読むのではなく、覚醒した患者に尋ねて地図を引き出すことだ。

ソフトプロンプトをトークナイザーに戻して何の単語か尋ねても答えはない。特徴辞書でまばらな組み合わせに分解しようとしても近いものはない。ソフトプロンプトは星々の間の虚無に位置する。

では、なぜモデルはそれを意味があるかのように扱えるのか？

答えは、意味がソフトプロンプトの座標にあるのではなく、ソフトプロンプトが36のトランスフォーマー層を通る際にモデルが行う処理から生じるという点にある。順伝播は複雑な決定論的非線形関数であり、入力ベクトルを出力トークン分布にマッピングする。勾配降下法は、関数を通過すると次のトークン分布が我々が望む意味を綴る単語に集中するような、言語外の特定の点を4,096次元空間で探索する。

ソフトプロンプトは、モデルにその概念が存在すると教えられることなく構築された後に残るもの、つまり闇の中で注意の適切な動きが適切な単語を生み出す位置の発見だ。モデルの重みがすべての重労働を行い、ソフトプロンプトは重みを通る経路を選ぶ座標のセットに過ぎない。

ここから二つのことが導かれる。

第一にサイズ。8つの4,096次元ベクトル、各パラメータ4バイトで131,072バイト——128KB。一枚の写真より小さく、スマートフォンのアイコンより小さい。これで数十億の重みを持つモデルに欠落概念を配置できる。なぜならモデルを再訓練したり変更したりせず、心の宮殿の中の正しい扉を開くだけだからだ。

第二に、より哲学的な点。モデルが概念のきれいな内部名を持たないことは、概念が無用であることを意味しない。それは、あらゆる心がどのようにして言い表せないものを知り表現するかを考えさせる。