Claude Sonnet 5 – ベンチマーク結果
Anthropic が 2026 年 6 月にリリースした Claude Sonnet 5(Adaptive Reasoning、Max Effort)は、Artificial Analysis Intelligence Index で 53 点を獲得し、平均を大きく上回る成績を示しています。このモデルはテキストと画像の入力に対応し、テキストを出力、100 万トークンのコンテキストウィンドウを持ち、入力・出力ともに 100 万トークンあたり 0.00 ドルという競争力のある価格設定です。
Anthropic は 2026 年 6 月に、最新の推論モデルである Claude Sonnet 5(Adaptive Reasoning、Max Effort)をリリースしました。Artificial Analysis による評価では、このモデルは Intelligence Index で 53 点を獲得し、同種モデルの平均(8 点)を大幅に上回る知能レベルを示しています。
Claude Sonnet 5 は推論モデルであり、回答を生成する前に「思考」プロセスを経ます。テキストと画像の両方を入力として受け付け、テキストを出力します。コンテキストウィンドウは最大 100 万トークンで、これは A4 用紙約 1500 ページ(12 ポイントの Arial フォント)に相当し、長文ドキュメントや複雑なタスクの処理に適しています。
価格面では、入力および出力のトークンあたりの料金がそれぞれ 100 万トークンあたり 0.00 ドルと設定されており、同種モデルの平均(同様に 0.00 ドルと表示されていますが、実際の価格は異なる可能性があります)と比較して非常に競争力があります。これにより、コストパフォーマンスに優れたモデルとなっています。
このモデルは Intelligence Index の評価タスクにおいて非常に冗長(verbose)であり、3 億トークンを出力しましたが、同種モデルの平均は 3700 万トークンでした。これは、Claude Sonnet 5 が非常に詳細で長文の回答を生成する傾向があることを示しており、深い分析や詳細な説明が必要なタスクには有益ですが、トークン消費量が増加する可能性があります。
Artificial Analysis Intelligence Index v4.1 は、GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience、AA-LCR の 9 つの評価指標で構成されています。これらの評価は、エージェントタスク、コーディング、科学的推論、長文コンテキスト推論など、多様な能力を測定します。新しいベンチマークである AA-Briefcase(エージェント知識作業)でもスコアが提供されています。
Claude Sonnet 5 はプロプライエタリモデルであるため、オープン性(Openness)のスコアは低くなっています。速度(1秒あたりの出力トークン数)に関するデータはまだ公開されていませんが、推論モデルであるため、最初のトークンが生成されるまでの待ち時間(思考時間を含む)は長くなる可能性があります。
全体として、Claude Sonnet 5 は知能と価格の両面で業界をリードしており、高い知能と長いコンテキスト処理能力が求められるユースケースに特に適しています。ただし、その冗長性の高さは、ユーザーがトークン消費量の増加を考慮する必要があることを意味します。