2026-06-12站内改写3 分で読了更新: 2026-06-13

Google、Gemini-SQL2をリリース：Gemini 3.1 ProによるテキストからSQLへの変換がBIRDシングルモデルリーダーボードで80.04%を達成

Google Researchは、Gemini 3.1 Proを搭載したテキストからSQLへの変換機能Gemini-SQL2を発表し、BIRDシングルモデルリーダーボードで80.04%の実行精度を達成しました。この指標は、生成されたSQLが実行され正しい結果を返すかどうかを測定します。Gemini-SQL2はリーダーボードのトップですが、まだ公開APIやモデルカードはありません。

ソースMarkTechPost著者: Asif Razzaq

Google Researchチームは2026年6月12日、Xプラットフォーム上でGemini-SQL2の発表を行いました。これはGemini 3.1 Proを搭載したテキストからSQLへの変換機能であり、BIRDテキストからSQLリーダーボード（シングルモデル）で80.04%の実行精度を記録しました。Googleのグラフによると、Gemini-SQL2は以前のGemini-SQLを上回り、トップの位置にあります。この指標は、生成されたSQLが実行され、正しい結果を返すかどうかを測定するものであり、見た目の妥当性ではありません。

Gemini-SQL2はテキストからSQLへの変換機能であり、独立した基盤モデルのリリースではありません。自然言語の質問をGoogleが「実行可能なSQLクエリ」と呼ぶものに変換します。この機能はGemini 3.1 Pro上に構築されています。Xの発表によると、「データの微妙さと複雑なビジネスコンテキストにより、自然言語から正確なSQLを生成することは非常に困難です。」また、「SQLの理解の向上は、Googleのデータサービス全体の自然言語スキルを向上させる可能性がある」とも述べられています。これは、BigQuery Studio、AlloyDB AI、Cloud SQL Studioなどの製品への統合を示唆しており、これらは既にGeminiベースのSQL生成機能を搭載しています。Googleはどの製品がGemini-SQL2を搭載するかはまだ確認していません。

BIRD（大規模データベース対応テキストからSQL評価のためのベンチマーク）は、このタスクの業界標準です。12,751の質問とSQLのペア、95のデータベース、37の専門分野、総容量33.4GBで構成されています。Spiderなどの古いベンチマークとは異なり、データベースには汚れた値が含まれ、外部知識の基盤が必要です。BIRDは実行精度（EX）を測定します。生成されたSQLが実行され、ゴールドクエリと一致する結果を返す必要があります。Googleはこれを直接述べています。「BIRDベンチマークによれば、実行検証済み精度を測定するものであり、Gemini-SQL2のSQLは単に正しく見えるだけでなく、正常に実行されます。」

シングルモデルトラックは、アンサンブルがスコアを上げるために使用する前処理、検索、エージェントフレームワークを制限します。モデルのコアなテキストからSQLへの能力を測定します。Google Cloudの以前の記録は2025年11月15日に報告された76.13%でした。Googleは人間のパフォーマンスを92.96%としてベンチマークしており、80.04%からは12.92ポイントの差があります。

Googleのグラフは、Gemini-SQL2が8つの名前付き競合他社といくつかのラベルのないポイントをリードしていることを示しています。80.04%のみがテキストで明記されています。以下の値はグラフの位置から読み取った近似値であり、日付は各ポイントの水平位置を反映しています。

システム組織BIRD実行精度（シングルモデル）グラフ日付 Gemini-SQL2 Google 80.04%（明記） 2026年6月 Gemini-SQL Google ~77.2% 2026年3月 Q-SQL AWS ~76.5% 2025年12月 Databricks RLVR 32B Databricks ~75.7% 2025年7月 SiriusAI-Text2SQL-32B-v2 Tencent ~75.0% 2025年12月 Arctic-Text2SQL-R1-32B Snowflake ~73.9% 2025年6月 GPT-5.5-xhigh OpenAI ~72.5% 2026年4月 SQLWeaver-32B Alibaba ~71.7% 2026年5月 Claude Opus 4.6 Anthropic ~70.1% 2026年2月

2つのパターンが見られます。Googleは現在、Gemini-SQL2とGemini-SQLで名前付きの上位2位を占めています。いくつかの専門的な32B SQLモデルも、このグラフでは一部の汎用フロンティアモデルよりも上位に位置しています。

ユースケースとしては、セルフサービス分析、データエンジニアリングの下書き、組み込みの「データに質問」機能があります。例えば、収益マネージャーが地域別の月次経常収益や、アップグレード後90日以内に解約したアカウントを尋ねる場合、結合、ウィンドウ関数、日付演算が必要です。実行検証済みの生成は、実行されるが間違った行を返すSQLを捕捉します。データエンジニアは英語でBigQuery変換を下書きし、その後レビューできます。Googleの2025年11月の研究では、スキーマ理解が難しい部分であると特定されました。BIRDスコアの向上は、あいまいな列や汚れた値の処理が改善されたことを反映しています。組み込み機能では、80%の精度では5件に1件のクエリが間違っている可能性があるため、引き続き人間のレビューが必要です。

GoogleはまだGemini-SQL2のモデル文字列やAPIを公開していません。記事では、現在のGeminiモデルを使用したスキーマ基盤の実装パターンが提供されていますが、Gemini-SQL2が出荷されたらモデル文字列を交換する必要があります。このパターンにはエラーを捕捉して再試行する実行検証ループが含まれています。

全体として、Gemini-SQL2の発表はテキストからSQLへの分野における重要な進歩を示していますが、公開されている詳細は限られています。開発者はGoogleの今後のAPIと製品統合の更新に注目する必要があります。