AI News HubLIVE
サイト内リライト2 分で読了

【AINews】本日Sonnet 5、明日Fable 5

AnthropicがClaude Sonnet 5を公開。100万トークンのコンテキストウィンドウ、プロモーション価格設定、エージェント性能の向上を謳う。サードパーティのベンチマークではSonnet 4.6からの改善が見られるが、タスクあたりのコスト増加やFable 5の欠如に不満の声も。Fable/Mythos 5は政府との協力を経て再承認された。

ソースLatent Space

Anthropicは本日、Claude Sonnet 5を新しいデフォルト中級モデルとして発表し、Claude、Claude Code、API、エコシステムパートナーで即時利用可能としました。公式発表では「最もエージェント指向のSonnet」と位置づけ、計画立案、ブラウザ/ターミナルツールの使用、自律実行の向上を強調しており、これらの能力は以前は「より大型で高価なモデル」を必要としていたと述べています。Sonnet 5は100万トークンのコンテキストウィンドウを備え、標準価格は入力100万トークンあたり3ドル、出力あたり15ドルですが、プロモーション価格として8月31日/9月1日まで入力2ドル、出力10ドルが適用されます。また、AnthropicはLinux版Claude Desktop(Ubuntu/Debianベータ)もリリースし、Claude Code/Cowork/chatを有料プランでサポートしますが、Linux版にはComputer Use機能は含まれません。Managed Agentsにもストリーミングセッションデルタ、セッションごとのオーバーライド、webhookイベント、逆ページネーション、クレデンシャルインジェクションスコーピング、可観測性タブなどのアップデートが施されました。

Sonnet 5の発表に先立ち、Fable 5との同時リリースを予想する大きな噂がありました。アプリ内の文字列解析により、AnthropicがFable 5を既存プランとは別のクレジットシステムで課金し、本人確認を導入する準備をしているとの憶測を呼び、アクセスがより制限される可能性が示唆されました。しかし、実際にリリースされたのはSonnet 5のみであり、Fable 5の欠如が一部ユーザーの失望を招きました。その後、Fable/Mythos 5は政府との協力を経て再承認されましたが、同日リリースはされませんでした。

サードパーティの評価では、Sonnet 5はSonnet 4.6からの確かな改善を示しましたが、その命名が「5.0」に値するかについては議論が分かれています。CursorはCursorBenchで57%(前世代49%)を記録したと報告。CognitionはFrontierCode Extendedで53.8%のスコアと57.6%の合格率を達成し、Opus 4.8を上回ったとしています。ClineはTerminal-BenchでOpus 4.8レベルの性能を半分以下のコストで実現し、プロンプトインジェクションへの耐性も向上したと評価。一方、Artificial Analysisのデータによれば、Sonnet 5のインテリジェンス指数は53で前世代より6ポイント高いものの、Opus 4.7/4.8には及ばず、またタスクあたりの平均出力トークン数が約69,000と前世代の1.4倍に増加したため、標準価格でのタスクコストは2.29ドルと、Sonnet 4.6の約2倍、Opus 4.8よりも15%高くなっています。このタスク効率の悪化が批判の主な根拠となっています。

コミュニティの反応は二分されています。支持派はSonnet 5が並列ワークフローや長期実行エージェントに適した生産性向上型のリリースであり、コーディングとセキュリティの改善が特に価値があると評価。批判派は、命名が過大であり、実際の性能向上は限定的で、タスクコストで競争力に欠け、Fable 5の欠如が期待を裏切ったと指摘します。総じて、Sonnet 5はAnthropicのエージェント能力への継続的なコミットメントを示す一方で、その価格設定とポジショニングは市場の試練に直面していると言えるでしょう。