谷歌发布Gemini-SQL2:基于Gemini 3.1 Pro的文本到SQL系统在BIRD单模型排行榜上达到80.04%
谷歌研究团队宣布推出Gemini-SQL2,这是一种基于Gemini 3.1 Pro的文本到SQL能力,在BIRD单模型排行榜上实现了80.04%的执行准确率。该指标衡量生成的SQL是否运行并返回正确结果,而非表面合法性。Gemini-SQL2在排行榜上领先,但尚未公开发布API或模型卡。
谷歌研究团队于2026年6月12日在X平台上宣布推出Gemini-SQL2,称其为一种基于Gemini 3.1 Pro的突破性文本到SQL能力。该系统在BIRD文本到SQL排行榜(单模型)上取得了80.04%的执行准确率。谷歌的图表显示,Gemini-SQL2超越了其前身Gemini-SQL,位居榜首。该指标衡量的是生成的SQL是否能够运行并返回正确结果,而非只是看起来有效。
Gemini-SQL2是一种文本到SQL能力,而非独立的基座模型发布。它能够将自然语言问题转换为谷歌所说的“可执行SQL查询”。该能力基于Gemini 3.1 Pro构建。根据X上的公告,“数据的微妙性和复杂的业务上下文使得从自然语言生成准确的SQL变得异常困难。”公告还指出,“改进的SQL理解能够提升谷歌数据服务中的自然语言技能。”这暗示了集成目标可能包括BigQuery Studio、AlloyDB AI和Cloud SQL Studio,这些产品已经具备基于Gemini的SQL生成功能。谷歌尚未确认哪些产品将获得Gemini-SQL2。
BIRD(大规模数据库基础文本到SQL评估的标杆)是该任务的行业标准。它包含12,751个问题-SQL对,涵盖95个数据库,涉及37个专业领域,总大小33.4GB。与Spider等旧基准不同,这些数据库包含脏值并需要外部知识基础。BIRD衡量执行准确率(EX):生成的SQL必须运行并返回与黄金查询匹配的结果。谷歌直接说明了这一点,“根据BIRD基准,该基准衡量执行验证的准确率,Gemini-SQL2的SQL不仅看起来正确,还能成功运行。”
单模型轨道限制了集成方法使用的预处理、检索和代理框架,从而衡量模型的核心文本到SQL能力。谷歌云此前在该轨道上的记录是2025年11月15日报告的76.13%。谷歌将人类表现基准设为92.96%,因此80.04%仍有12.92个百分点的差距。
谷歌图表显示Gemini-SQL2领先于八个命名的竞争对手以及多个未标记的点。图表中只有80.04%标注为文本。以下数值从图表位置读取,为近似值,日期反映每个点的水平位置。
系统组织BIRD执行准确率(单模型)图表日期 Gemini-SQL2 谷歌 80.04%(标注) 2026年6月 Gemini-SQL 谷歌 ~77.2% 2026年3月 Q-SQL AWS ~76.5% 2025年12月 Databricks RLVR 32B Databricks ~75.7% 2025年7月 SiriusAI-Text2SQL-32B-v2 腾讯 ~75.0% 2025年12月 Arctic-Text2SQL-R1-32B Snowflake ~73.9% 2025年6月 GPT-5.5-xhigh OpenAI ~72.5% 2026年4月 SQLWeaver-32B 阿里巴巴 ~71.7% 2026年5月 Claude Opus 4.6 Anthropic ~70.1% 2026年2月
可见两个模式:谷歌现在占据前两名,即Gemini-SQL2和Gemini-SQL。多个专门的32B SQL模型也在此图表上高于一些通用前沿模型。
用例包括自助分析、数据工程草稿和嵌入式“查询数据”功能。例如,收入经理询问按地区划分的月经常性收入,以及升级后90天内流失的账户。这需要连接、窗口逻辑和日期算术。执行验证的生成可以捕获运行但返回错误行的SQL。数据工程师可以用英语草拟BigQuery转换,然后进行审查。谷歌2025年11月的工作指出模式理解是难点。更高的BIRD分数反映了对模糊列和混乱值的更好处理。对于嵌入式功能,80%的准确率意味着五分之一的查询可能出错,因此仍需人工审查。
谷歌尚未发布Gemini-SQL2的模型字符串或API。文中提供了基于当前Gemini模型的模式基础实现模式,但需要等到Gemini-SQL2发布后才能更换模型字符串。这种模式包括执行验证循环,以捕获错误并重试。
总体而言,Gemini-SQL2的发布展示了文本到SQL领域的显著进展,但公开细节有限。开发者需关注谷歌后续的API和产品集成更新。