2026-06-12站内改写2 分鐘閱讀更新: 2026-06-13

谷歌釋出Gemini-SQL2：基於Gemini 3.1 Pro的文本到SQL系統在BIRD單模型排行榜上達到80.04%

谷歌研究團隊宣佈推出Gemini-SQL2，這是一種基於Gemini 3.1 Pro的文本到SQL能力，在BIRD單模型排行榜上實現了80.04%的執行準確率。該指標衡量生成的SQL是否執行並返回正確結果，而非表面合法性。Gemini-SQL2在排行榜上領先，但尚未公開發布API或模型卡。

來源MarkTechPost作者: Asif Razzaq

谷歌研究團隊於2026年6月12日在X平臺上宣佈推出Gemini-SQL2，稱其為一種基於Gemini 3.1 Pro的突破性文本到SQL能力。該系統在BIRD文本到SQL排行榜（單模型）上取得了80.04%的執行準確率。谷歌的圖表顯示，Gemini-SQL2超越了其前身Gemini-SQL，位居榜首。該指標衡量的是生成的SQL是否能夠執行並返回正確結果，而非只是看起來有效。

Gemini-SQL2是一種文本到SQL能力，而非獨立的基座模型釋出。它能夠將自然語言問題轉換為谷歌所說的“可執行SQL查詢”。該能力基於Gemini 3.1 Pro構建。根據X上的公告，“資料的微妙性和複雜的業務上下文使得從自然語言生成準確的SQL變得異常困難。”公告還指出，“改進的SQL理解能夠提升谷歌資料服務中的自然語言技能。”這暗示了整合目標可能包括BigQuery Studio、AlloyDB AI和Cloud SQL Studio，這些產品已經具備基於Gemini的SQL生成功能。谷歌尚未確認哪些產品將獲得Gemini-SQL2。

BIRD（大規模資料庫基礎文本到SQL評估的標杆）是該任務的行業標準。它包含12,751個問題-SQL對，涵蓋95個資料庫，涉及37個專業領域，總大小33.4GB。與Spider等舊基準不同，這些資料庫包含髒值並需要外部知識基礎。BIRD衡量執行準確率（EX）：生成的SQL必須執行並返回與黃金查詢匹配的結果。谷歌直接說明了這一點，“根據BIRD基準，該基準衡量執行驗證的準確率，Gemini-SQL2的SQL不僅看起來正確，還能成功執行。”

單模型軌道限制了整合方法使用的預處理、檢索和代理框架，從而衡量模型的核心文本到SQL能力。谷歌雲此前在該軌道上的記錄是2025年11月15日報告的76.13%。谷歌將人類表現基準設為92.96%，因此80.04%仍有12.92個百分點的差距。

谷歌圖表顯示Gemini-SQL2領先於八個命名的競爭對手以及多個未標記的點。圖表中只有80.04%標註為文本。以下數值從圖表位置讀取，為近似值，日期反映每個點的水平位置。

系統組織BIRD執行準確率（單模型）圖表日期 Gemini-SQL2 谷歌 80.04%（標註） 2026年6月 Gemini-SQL 谷歌 ~77.2% 2026年3月 Q-SQL AWS ~76.5% 2025年12月 Databricks RLVR 32B Databricks ~75.7% 2025年7月 SiriusAI-Text2SQL-32B-v2 騰訊 ~75.0% 2025年12月 Arctic-Text2SQL-R1-32B Snowflake ~73.9% 2025年6月 GPT-5.5-xhigh OpenAI ~72.5% 2026年4月 SQLWeaver-32B 阿里巴巴 ~71.7% 2026年5月 Claude Opus 4.6 Anthropic ~70.1% 2026年2月

可見兩個模式：谷歌現在佔據前兩名，即Gemini-SQL2和Gemini-SQL。多個專門的32B SQL模型也在此圖表上高於一些通用前沿模型。

用例包括自助分析、資料工程草稿和嵌入式“查詢資料”功能。例如，收入經理詢問按地區劃分的月經常性收入，以及升級後90天內流失的賬戶。這需要連線、視窗邏輯和日期算術。執行驗證的生成可以捕獲執行但返回錯誤行的SQL。資料工程師可以用英語草擬BigQuery轉換，然後進行審查。谷歌2025年11月的工作指出模式理解是難點。更高的BIRD分數反映了對模糊列和混亂值的更好處理。對於嵌入式功能，80%的準確率意味著五分之一的查詢可能出錯，因此仍需人工審查。

谷歌尚未釋出Gemini-SQL2的模型字串或API。文中提供了基於當前Gemini模型的模式基礎實現模式，但需要等到Gemini-SQL2釋出後才能更換模型字串。這種模式包括執行驗證迴圈，以捕獲錯誤並重試。

總體而言，Gemini-SQL2的釋出展示了文本到SQL領域的顯著進展，但公開細節有限。開發者需關注谷歌後續的API和產品整合更新。