AI News HubLIVE
站内改写3 分で読了

Claude Fable 5 の初期印象

Anthropic が Claude Fable 5 と Mythos 5 をリリース。Fable 5 は Mythos 5 と同じ性能だが、より厳格な安全ガードレールを備える。100万トークンのコンテキストウィンドウと12.8万トークンの出力を持ち、価格は Opus 4.8 の2倍。Simon Willison 氏が約5.5時間テストし、知識が深く、コード生成や複雑タスクに優れる一方、遅くて高額だと評価。Fable 5 は micropython-wasm をフルPythonにアップグレードし、Datasette Agent と LLM ライブラリにツール呼び出しの一時停止・再開機能を実装。同日中に110.42ドル分のトークンを消費した。

Anthropic は2026年6月9日、新たなフラッグシップモデル Claude Fable 5 と、安全分類器を省いた Claude Mythos 5 をリリースしました。著名な開発者 Simon Willison 氏が直ちに約5.5時間にわたるテストを実施し、その印象を「まさに猛獣」と表現しました。

Fable 5 は Mythos 5 と同等の性能を持ちながら、悪用を防ぐためのより厳格な安全ガードレールを備えています。これらのガードレールは頻繁に作動するため、Claude API は新たな通知メカニズムを導入し、リクエストが拒否された場合に自動的に別のモデルにフォールバックするオプションも提供しています。両モデルとも100万トークンのコンテキストウィンドウと12万8000トークンの最大出力を持ち、知識のカットオフ日は2026年1月です。価格は Opus 4.8 シリーズの2倍で、入力トークン100万あたり10ドル、出力トークン100万あたり50ドル。長いコンテキストでも追加料金はかかりません。

Willison 氏は比較テストを通じて、Fable 5 の知識の深さを実感しました。彼が「Simon Willion のオープンソースプロジェクトをすべてリストせよ」と(わざとスペルミスをして)尋ねたところ、Opus 4.8 は慎重に主要プロジェクトのみを挙げたのに対し、Fable 5 はスペルミスを訂正した上で、Django から最近の小規模ツールに至るまで、より包括的で正確なリストを発表日付付きで提供しました。Willison 氏は、以前はモデルの知識量には関心がないと述べていましたが、Fable 5 のこの性能はパラメータ数が非常に大きいことを示唆しており、現在のところ最大のモデルである可能性があると指摘しています。

コード生成能力でも Fable 5 は印象的でした。Willison 氏が、以前リリースした micropython-wasm ライブラリ(WebAssembly 上の MicroPython サンドボックス)をフルPythonにアップグレードするよう依頼したところ、Fable 5 は Brett Cannon の cpython-wasi-build を利用できると即座に特定。環境制限により直接ダウンロードはできなかったものの、ユーザーがファイルをアップロードすると、数分の処理で13.9MBのPython WASM ホイールファイルを生成し、uv コマンドで直接実行可能にしました。

さらに印象的だったのは、Datasette Agent と LLM ライブラリの開発支援における能力です。Willison 氏は Datasette Agent にツール呼び出しを途中で一時停止し、ユーザーの承認を求める機能を追加しようとしていました。Fable 5 はこの問題を解決しただけでなく、基盤となるLLMライブラリに関連する4つの改善点を特定し、実装しました。これにはツール呼び出しへの一意のID付与、PauseChain 例外によるクリーンな一時停止、保留中のツール呼び出しの履歴からの再開サポートなどが含まれます。これらの改善は LLM 0.32a3 としてリリースされ、そのコード、テスト、ドキュメントのほとんどは Fable 5 が生成しました。Willison 氏はそのAPI設計、コード品質、ドキュメントのレベルに非常に感銘を受け、数時間の作業で数日分の成果が得られたと述べています。

しかし、強力な能力には代償が伴います。Willison 氏が AgentsView ツールでトークン消費を追跡したところ、1日で110.42ドル分(月額100ドルのサブスクリプションの一部)を消費しました。その大部分(89.9%)は Datasette Agent プロジェクトによるものです。また、Fable 5 は推論速度が遅く、生成品質は思考努力レベルに依存します。例えば、'自転車に乗るペリカン'のSVG画像生成テストでは、最高思考レベル(max)で14,430トークン出力、72.175セントを消費。一方、中程度の思考レベルが高レベルよりも多くのトークンを消費するなど、興味深い結果も見られました。

総じて、Claude Fable 5 は深い知識と優れたエンジニアリング能力を兼ね備えたフラッグシップモデルであり、複雑なプログラミングやエージェントタスクで卓越した性能を発揮します。ただし、その高コストと低速さは注目に値します。Anthropic はモデルサイズを公表していませんが、あらゆる兆候がこれまでで最大のモデルの一つであることを示しています。