Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8:エージェンティックコーディングベンチマーク、API価格、コストパフォーマンスの比較
AnthropicはClaude Sonnet 5をリリースしました。これは最もエージェンティックなミッドティアモデルで、前世代のSonnet 4.6をすべてのベンチマークで上回り、フラッグシップのOpus 4.8との差を縮めています。努力レベル(effort levels)を導入し、低/中努力では高いコストパフォーマンスを発揮しますが、超高努力ではOpus 4.8よりもコストがかかる可能性があります。FreeおよびProプランのデフォルトモデルとなり、APIからも利用可能です。
Anthropicは2026年6月30日、Claude Sonnet 5を正式にリリースしました。本モデルは、自律的な計画立案、ブラウザやターミナルの操作、長時間タスクの自主実行が可能な、最もエージェンティックなミッドティアモデルとして位置づけられています。Sonnet 5は即日よりFreeおよびProプランのデフォルトモデルとなり、Max、Team、Enterpriseユーザーも選択可能です。また、Claude CodeおよびClaudeプラットフォーム上でも利用可能です。
Sonnet 5は、公開されたすべてのベンチマークで前世代のSonnet 4.6を上回っています。エージェンティックコーディングのSWE-bench Proでは63.2%(Sonnet 4.6は58.1%)、コンピュータ使用のOSWorld-Verifiedでは81.2%(同78.5%)、Terminal-Bench 2.1では80.4%(同67.0%)を記録しました。ツール使用時の「人類最後の試験」(HLE)では57.4%を達成し、Opus 4.8の57.9%に迫りました。特筆すべきは、知識作業ベンチマークGDPval-AA v2で1,618点を獲得し、Opus 4.8の1,615点をわずかに上回った点です。これはSonnet 5が唯一Opus 4.8を凌駕した分野です。
Sonnet 5は「努力レベル」(低、中、高、超高)の概念を導入しています。努力レベルが高いほど推論に多くのトークンを消費し、品質は向上しますがコストも増加します。低・中レベルでは、従来のSonnet価格では得られなかった品質を提供し、コストパフォーマンスに優れます。しかし、超高レベルではコストがOpus 4.8を上回る可能性があり、品質もOpus 4.8に劣る場合があります。このため、Anthropicは、ほとんどのエージェンティックコーディング、ツール使用、知識作業にSonnet 5を、正確性が重要なタスクにOpus 4.8を、高スループット・低レイテンシが求められる用途にHaiku 4.5を使用することを推奨しています。
価格面では、Sonnet 5の入力は100万トークンあたり2ドル、出力は10ドルで、これは2026年8月31日までの導入価格です。標準価格はその後、入力3ドル、出力15ドルに変更されます。Opus 4.8は入力5ドル、出力25ドルです。Sonnet 5はOpus 4.7と同じトークナイザーを採用しており、同じテキストでもトークン数が最大1.35倍になる可能性があるため、コスト見積もりの際には注意が必要です。
早期アクセスパートナーからは具体的なユースケースが報告されています。ソフトウェアエンジニアリングでは、バグの再現から修正実装までを一貫して実行。ビジネス自動化では、Salesforceアカウントの更新とマーケティングメール送信を連続して処理。データ探索では、ClickHouseエージェントがリアルタイムでデータをクエリし洞察を生成するなど、多様な業務での活用が確認されています。
コミュニティの反応は賛否両論です。公式発表や一部の開発者は、Sonnet価格でトップクラスの性能を実現したと評価する一方、標準価格ではOpus 4.8に対する優位性が薄れるとの指摘や、GLM 5.2などの競合モデルと比較してコストパフォーマンスが劣るという意見もあります。また、Haikuシリーズのアップデートを待望する声も見られました。
総じて、Sonnet 5は日常的なタスクの大半においてコストと性能のバランスに優れたモデルですが、最高レベルの精度と極めて複雑なタスクでは、依然としてフラッグシップのOpus 4.8が優位です。