Claude Fableが基本的な生物学の質問に答えない
Anthropicが最も強力なAIモデルClaude Fable 5を公開したが、「ミトコンドリアとは何か」などの基本的な生物学の質問に答えることを拒否する。これは生物兵器への悪用を防ぐための安全対策であり、Anthopicは過剰だが安全な展開に必要だと説明している。
Anthropicは先日、Claude Fable 5をリリースし、これまでで最も強力な公開AIモデルであり、特に生物学の能力に優れていると称賛しました。しかし、このモデルは高校生でも答えられるような基本的な生物学の質問に答えることを拒否します。代わりに、以前のフラッグシップモデルであるClaude Opus 4.8にクエリを転送します。
Fableが答えを知らないわけではありません。Anthropicが意図的に答えさせないようにしているのです。Fableは公開向けのMythosクラスのモデルであり、このファミリーはサイバーセキュリティタスクにおいて非常に優れているため、Anthropicは公開するには危険すぎると述べていました。しかし、AnthropicがMythosの展開においてサイバーセキュリティについて警告を続ける一方で、生物学におけるFableのガードレールが最も顕著であり、かつ最も制限的です。
記者がモデルを試したところ、多くの基本的な生物学の質問、例えば「細胞膜について教えて」「ミトコンドリアとは何か」「プリオンとは何か」「mRNAワクチンはどのように機能するか」などに答えませんでした。これらの質問は明らかに安全リスクとは無関係に見えます。また、「花粉症の原因」「喘息治療薬の仕組み」「抗生物質耐性」といった一般的な医療クエリも拒否されました。ただし、「癌とは何か」「DNAとは何か」といった一部の質問にはFableが回答しました。拒否された場合、Opus 4.8は通常完璧に答えました。
Anthropicは、広範な生物学フィルターは意図的な選択であり、生物兵器を主な懸念として慎重に設定されていると述べています。「Claude Fable 5を最初のMythosクラスモデルとして公開するにあたり、モデルが現実世界の科学タスクを遂行する能力が向上し、悪意のある行為者がモデルを高リスクの生物学研究に利用する可能性があると考えています」と広報担当のParuul Maheshwary氏はThe Vergeに語りました。「当社は常に分類器を使用して、モデルが生物兵器関連のリクエストを支援することを防いでいます。Fable 5を安全に展開するためには、ほとんどの生物学関連クエリをブロックするよう、ガードレールを過度に保守的に設定する必要があると判断しました。」
Anthropicは以前、Fableの応答を安全のために制限する4つの主要分野(化学、生物学、サイバーセキュリティ、蒸留)を強調していました。蒸留は、より大きなモデルの出力を使用して小型AIを訓練する技術です。同社は中国のDeepSeekなどの競合他社が自社モデルを「産業規模」で蒸留していると非難しています。
蒸留を有意義にテストすることはできませんでしたが、Fableは化学やサイバーセキュリティの質問にはより積極的に回答するようでした。例えば、爆発物TNTの基本的な概要を説明しましたが、「明白な理由から」合成手順は省略しました。また、塩素ガスを化学兵器として使用する方法、共通のパスワード脅威、核融合と核分裂、そしてiPhoneをハッカーから保護する方法について説明しました。ただし、サリンガス(極めて有毒な神経剤)について尋ねた際にはFableはOpusに委ねました。FableとOpusは両方とも「炭疽菌の作り方」というプロンプトを拒否し、Claudeはチャットを完全に停止しました。これは理にかなっています。ミトコンドリアのプロンプト拒否は偽陽性のように思われます。
「このトレードオフにより、リスクを冒すことなく、お客様がより早くモデルの能力を活用できるようにしました」とMaheshwary氏は説明し、Anthropicは検出を改善し偽陽性を減らすために努力していると付け加えました。「将来的には、これらの安全対策なしでMythosクラスモデルをより広範な生物学・生命科学コミュニティに提供し、生物医学研究や創薬を加速できるようにする予定です。」
Anthropicは、この種の制限付きリリースが将来のモデルの新たな標準となるかどうかについては回答しませんでした。