AnthropicのFableはこれまでで最も制限の多い公開モデル
AnthropicがClaude Fable 5を発表したが、フロンティアLLM開発に関するプロンプトに対する回答品質を密かに低下させる計画が物議を醸した。批判者は研究や信頼を損なうと主張。Anthropicは方針を変更し、ユーザーを弱いモデルに透過的にダウングレードするようにした。それでもFable 5の安全フィルターは非常に厳格で、「タンパク質とは何か?」のような基本的な質問にも引っかかる。本記事ではAnthropicの安全フィルターの仕組みと進化を解説する。
今週火曜日、Anthropicは最新モデルClaude Fable 5を発表した。しかし、システムカードの13ページに記載された一文が即座に抗議を呼んだ。AI研究者のNathan Lambertは「嘆かわしい」と評し、元トランプ政権のAI政策責任者Dean Ballは「驚くほど敵対的」と書き、多くの人々が非難に加わった。
怒りを買った発表内容はこうだ:Anthropicは「フロンティアLLM開発を標的とする」と思われるプロンプトに対する回答の品質を、微妙に低下させる計画だった。その含意は、Anthropicが競合他社、特に中国の企業がClaudeを使って競合モデルを構築することを懸念しているというものだ。Anthropicはこの品質低下は「ユーザーには見えない」と述べた。
批評家は、これらの制限、特にその秘密主義が、学術研究者によるモデルのベンチマークや公共の利益のためのAI研究を妨げることを懸念した。また、沈黙の振る舞いはAnthropicのリリースへの信頼を損なうと主張した。Lambertは「自動的に知らせずに知能が低下するモデルは、根本的にミスアライメントしている」と書いた。
激しい反発を受け、Anthropicは迅速に譲歩した。水曜夜遅く、新たなアプローチを発表した。回答品質を密かに低下させる代わりに、フロンティアLLMトレーニングの支援を求めるユーザーを、能力の低いClaude Opus 4.8に透過的にダウングレードするというものだ。
この変更後も、Claude Fable 5の安全フィルターはほぼ確実に他のどのフロンティアモデルよりも厳格だ。例えば水曜日、「タンパク質とは何か?」という質問をしたところ、ダウングレードがトリガーされた(今日は同じ質問に正常に応答する)。これはFable 5がClaude Mythosをベースにしており、Mythosはハッキング能力が非常に高いためAnthropicが4月に一般公開しないことを決定したモデルだからだ。安全策なしではFable 5はMythosと同じハッキング能力を持つため、Anthropicがモデルに何をさせるかについて慎重になるのは理解できる。
Anthropicは安全フィルターを改善して誤検出を減らすよう取り組んでいると述べているが、全体的な積極的アプローチを放棄するつもりはない。本記事では、Anthropicの安全フィルターの仕組みと、そのアプローチが時間とともにどのように進化してきたかを詳しく説明する。Anthropicは2つの重要な論文を参考にしており、1つは「憲法AI」手法、もう1つは「レッドチームテスト」戦略に関するものだ。これらの論文は、Anthropicが反復トレーニングと階層的フィルタリングを通じて、モデルの能力を維持しながら有害な出力のリスクを大幅に低減する方法を示している。最新のフィルタリングシステムは今年初めに展開され、悪意のあるプロンプトの検出精度を向上させるだけでなく、計算コストも大幅に削減した。
全体として、Fable 5のリリースは、最前線のAI企業が公開性と安全性の間で直面する難しいバランスを浮き彫りにしている。Anthropicの保守的な戦略は批判を受けたが、透明性への調整は公衆の懸念への対応を示している。今後、安全技術の進歩に伴い、同様のトレードオフがさらに見られるようになるだろう。