AI News HubLIVE
サイト内リライト2 分で読了

Claude Sonnet 5:強力なエージェント性能、ただしタスクあたりのコスト増加

Anthropic の Claude Sonnet 5 は、Artificial Analysis Intelligence Index でスコア 53 を獲得し、GPT-5.5(高推論)と同等だが Opus 4.7 および 4.8 には及ばない。タスクあたりのコストは 2.29 ドルで、Opus 4.8 より約 15% 高く、これはトークン使用量の増加による。Sonnet 5 はエージェント知識作業タスクで Opus 4.8 と同等以上だが、推論重視のベンチマークでは後れを取る。100 万トークンのコンテキストウィンドウを維持し、「xhigh」努力レベルを追加。

ソースHacker News AI著者: himata4113

2026 年 6 月 30 日、Artificial Analysis は Anthropic の最新モデル Claude Sonnet 5 の評価を公開しました。本モデルは Artificial Analysis Intelligence Index でスコア 53 を獲得し、前世代の Sonnet 4.6 から 6 ポイント向上、GPT-5.5(高推論設定)と同等ですが、Opus 4.7 および 4.8 にはわずかに及びません。エージェント性能は特に優れており、知識作業ベンチマークでは Opus 4.8 と同等以上を示しています。

ただし、優れた性能には高いコストが伴います。Sonnet 5 のタスクあたりのコストは 2.29 ドルで、Sonnet 4.6 の約 2 倍、Opus 4.8 よりも 15% 高くなっています。これはトークン価格(入出力 100 万トークンあたり 3/15 ドル)が変わらないにもかかわらず、タスクあたりのトークン使用量が増加したためです。Anthropic は 2026 年 9 月 1 日までプロモーション価格(2/10 ドル)を提供しています。

知識作業負荷において、Sonnet 5 は強力なパフォーマンスを発揮します。AA-Briefcase および GDPval-AA では Opus 4.8 を上回り、現在一般公開されていない Claude Fable 5 に次ぐ結果です。これらのベンチマークは、オープンソースのエージェントフレームワーク Stirrup を使用して、複雑なプロジェクトにおける専門的な出力を評価します。Sonnet 5 は努力レベルに応じて動作が変化し、最高努力レベルでは低努力と比較して GDPval-AA で約 6 倍のエージェントターンを使用しました。

伝統的な推論および知識集約型タスクでは、Sonnet 5 はまだ改善の余地があります。CritPt(先端物理学推論ベンチマーク)ではスコア 17% で、前世代から 14 ポイント向上したものの、GLM-5.2、Claude Opus、Fable、GPT-5.5 には及びません。他のベンチマークでは、Terminal-Bench v2.1 で 9 ポイント、Humanity's Last Exam で 10 ポイント、SciCode で 7 ポイントの向上を示しました。

Sonnet 5 は 100 万トークンのコンテキストウィンドウを維持し、新たに「xhigh」努力レベルを追加して、Opus 4.8 と同じ 5 レベル(max、xhigh、high、medium、low)を提供します。キャッシュ価格は、キャッシュ書き込みが 25% 割増(100 万トークンあたり 3.75 ドル、TTL 5 分)、キャッシュヒットは 90% 割引(100 万トークンあたり 0.3 ドル)です。

Claude Sonnet 5:強力なエージェント性能、ただしタスクあたりのコスト増加 | AI News Hub