Anthropic Sonnet 5:Opus 4.8との差を縮め、8月まで低価格
AnthropicがSonnet 5を発表。性能はOpus 4.8に迫り、8月末まで割引価格を提供。推論、コーディング、ツール使用でSonnet 4.6から大幅に向上し、安全性リスクは低い。
Anthropicは火曜日、メインストリームのSonnetシリーズの最新モデルであるSonnet 5を発表しました。同社はSonnet 5を「これまでで最もエージェント性の高いSonnetモデル」と位置づけ、ベンチマークではOpus 4.8に迫る性能を示し、Sonnet 4.6から顕著な向上を遂げています。特に推論、ツール使用、ソフトウェアコーディング、ナレッジワークのタスクで優れたパフォーマンスを発揮します。
過去のSonnetリリースとは異なり、最新の大型モデルOpusを完全には上回っていませんが、Opus 4.8の手頃な代替として十分な性能を備えています(Opus 5のリリースが近いと予想されますが、Fable 5のように遅延しないことを前提とします)。Anthropicは、Opus 4.8が特に高推論レベルで高い精度を提供する一方、Sonnet 5は開発者に低価格で高品質な選択肢を提供すると強調しています。
最高推論レベル(Extra High)では、Sonnet 5はOSWorld-Verifiedおよびエージェント検索BrowseCompベンチマークでOpus 4.8の中〜高レベルに相当します。ただし、そのレベルでの実行コストはOpus 4.8より高いため、一部のタスクではOpus 4.8が優位です。利用可能なすべてのベンチマークでSonnet 5はSonnet 4.6を上回っています。
ベンチマークは一部の側面しか示しません。Anthropicによると、テスターはSonnet 5が複雑なタスクを完了することが多く、「以前のSonnetは途中で止まっていた」と報告しています。
開発者を惹きつけるため、AnthropicはAPI導入価格として、入力トークン100万あたり2ドル、出力トークン100万あたり10ドルを8月31日まで提供します。その後は標準価格(入力3ドル、出力15ドル)に戻ります。また、Chat、Cowork、Claude Codeユーザーのレート制限を引き上げ、高努力レベルでのトークン使用増加に対応します。
安全性については、AnthropicはSonnet 5を「サイバーセキュリティタスクに意図的に訓練していない」と述べ、基本的なサイバータスクは処理できるものの、性能はOpus 4.8やMythosに大きく劣るとしています。サイバーセーフガードは維持されていますが、リスクが低いためFable 5ほど厳格ではありません。例えば、Firefox 147の脆弱性探索において、「Sonnet 5は完全なエクスプロイトを開発できなかったが、部分的な成功率は前世代のSonnet 4.6よりわずかに高い」とされています。そのため、米国政府がSonnet 5を市場から排除するリスクは非常に低いと考えられます。