AI News HubLIVE
站内改写2 分鐘閱讀

谷歌釋出Gemini-SQL2:基於Gemini 3.1 Pro的文本到SQL系統在BIRD單模型排行榜上達到80.04%

谷歌研究團隊宣佈推出Gemini-SQL2,這是一種基於Gemini 3.1 Pro的文本到SQL能力,在BIRD單模型排行榜上實現了80.04%的執行準確率。該指標衡量生成的SQL是否執行並返回正確結果,而非表面合法性。Gemini-SQL2在排行榜上領先,但尚未公開發布API或模型卡。

來源MarkTechPost作者: Asif Razzaq

谷歌研究團隊於2026年6月12日在X平臺上宣佈推出Gemini-SQL2,稱其為一種基於Gemini 3.1 Pro的突破性文本到SQL能力。該系統在BIRD文本到SQL排行榜(單模型)上取得了80.04%的執行準確率。谷歌的圖表顯示,Gemini-SQL2超越了其前身Gemini-SQL,位居榜首。該指標衡量的是生成的SQL是否能夠執行並返回正確結果,而非只是看起來有效。

Gemini-SQL2是一種文本到SQL能力,而非獨立的基座模型釋出。它能夠將自然語言問題轉換為谷歌所說的“可執行SQL查詢”。該能力基於Gemini 3.1 Pro構建。根據X上的公告,“資料的微妙性和複雜的業務上下文使得從自然語言生成準確的SQL變得異常困難。”公告還指出,“改進的SQL理解能夠提升谷歌資料服務中的自然語言技能。”這暗示了整合目標可能包括BigQuery Studio、AlloyDB AI和Cloud SQL Studio,這些產品已經具備基於Gemini的SQL生成功能。谷歌尚未確認哪些產品將獲得Gemini-SQL2。

BIRD(大規模資料庫基礎文本到SQL評估的標杆)是該任務的行業標準。它包含12,751個問題-SQL對,涵蓋95個資料庫,涉及37個專業領域,總大小33.4GB。與Spider等舊基準不同,這些資料庫包含髒值並需要外部知識基礎。BIRD衡量執行準確率(EX):生成的SQL必須執行並返回與黃金查詢匹配的結果。谷歌直接說明了這一點,“根據BIRD基準,該基準衡量執行驗證的準確率,Gemini-SQL2的SQL不僅看起來正確,還能成功執行。”

單模型軌道限制了整合方法使用的預處理、檢索和代理框架,從而衡量模型的核心文本到SQL能力。谷歌雲此前在該軌道上的記錄是2025年11月15日報告的76.13%。谷歌將人類表現基準設為92.96%,因此80.04%仍有12.92個百分點的差距。

谷歌圖表顯示Gemini-SQL2領先於八個命名的競爭對手以及多個未標記的點。圖表中只有80.04%標註為文本。以下數值從圖表位置讀取,為近似值,日期反映每個點的水平位置。

系統組織BIRD執行準確率(單模型)圖表日期 Gemini-SQL2 谷歌 80.04%(標註) 2026年6月 Gemini-SQL 谷歌 ~77.2% 2026年3月 Q-SQL AWS ~76.5% 2025年12月 Databricks RLVR 32B Databricks ~75.7% 2025年7月 SiriusAI-Text2SQL-32B-v2 騰訊 ~75.0% 2025年12月 Arctic-Text2SQL-R1-32B Snowflake ~73.9% 2025年6月 GPT-5.5-xhigh OpenAI ~72.5% 2026年4月 SQLWeaver-32B 阿里巴巴 ~71.7% 2026年5月 Claude Opus 4.6 Anthropic ~70.1% 2026年2月

可見兩個模式:谷歌現在佔據前兩名,即Gemini-SQL2和Gemini-SQL。多個專門的32B SQL模型也在此圖表上高於一些通用前沿模型。

用例包括自助分析、資料工程草稿和嵌入式“查詢資料”功能。例如,收入經理詢問按地區劃分的月經常性收入,以及升級後90天內流失的賬戶。這需要連線、視窗邏輯和日期算術。執行驗證的生成可以捕獲執行但返回錯誤行的SQL。資料工程師可以用英語草擬BigQuery轉換,然後進行審查。谷歌2025年11月的工作指出模式理解是難點。更高的BIRD分數反映了對模糊列和混亂值的更好處理。對於嵌入式功能,80%的準確率意味著五分之一的查詢可能出錯,因此仍需人工審查。

谷歌尚未釋出Gemini-SQL2的模型字串或API。文中提供了基於當前Gemini模型的模式基礎實現模式,但需要等到Gemini-SQL2釋出後才能更換模型字串。這種模式包括執行驗證迴圈,以捕獲錯誤並重試。

總體而言,Gemini-SQL2的釋出展示了文本到SQL領域的顯著進展,但公開細節有限。開發者需關注谷歌後續的API和產品整合更新。