2026-06-12站内改写2 分钟阅读更新: 2026-06-13

谷歌发布Gemini-SQL2：基于Gemini 3.1 Pro的文本到SQL系统在BIRD单模型排行榜上达到80.04%

谷歌研究团队宣布推出Gemini-SQL2，这是一种基于Gemini 3.1 Pro的文本到SQL能力，在BIRD单模型排行榜上实现了80.04%的执行准确率。该指标衡量生成的SQL是否运行并返回正确结果，而非表面合法性。Gemini-SQL2在排行榜上领先，但尚未公开发布API或模型卡。

来源MarkTechPost作者: Asif Razzaq

谷歌研究团队于2026年6月12日在X平台上宣布推出Gemini-SQL2，称其为一种基于Gemini 3.1 Pro的突破性文本到SQL能力。该系统在BIRD文本到SQL排行榜（单模型）上取得了80.04%的执行准确率。谷歌的图表显示，Gemini-SQL2超越了其前身Gemini-SQL，位居榜首。该指标衡量的是生成的SQL是否能够运行并返回正确结果，而非只是看起来有效。

Gemini-SQL2是一种文本到SQL能力，而非独立的基座模型发布。它能够将自然语言问题转换为谷歌所说的“可执行SQL查询”。该能力基于Gemini 3.1 Pro构建。根据X上的公告，“数据的微妙性和复杂的业务上下文使得从自然语言生成准确的SQL变得异常困难。”公告还指出，“改进的SQL理解能够提升谷歌数据服务中的自然语言技能。”这暗示了集成目标可能包括BigQuery Studio、AlloyDB AI和Cloud SQL Studio，这些产品已经具备基于Gemini的SQL生成功能。谷歌尚未确认哪些产品将获得Gemini-SQL2。

BIRD（大规模数据库基础文本到SQL评估的标杆）是该任务的行业标准。它包含12,751个问题-SQL对，涵盖95个数据库，涉及37个专业领域，总大小33.4GB。与Spider等旧基准不同，这些数据库包含脏值并需要外部知识基础。BIRD衡量执行准确率（EX）：生成的SQL必须运行并返回与黄金查询匹配的结果。谷歌直接说明了这一点，“根据BIRD基准，该基准衡量执行验证的准确率，Gemini-SQL2的SQL不仅看起来正确，还能成功运行。”

单模型轨道限制了集成方法使用的预处理、检索和代理框架，从而衡量模型的核心文本到SQL能力。谷歌云此前在该轨道上的记录是2025年11月15日报告的76.13%。谷歌将人类表现基准设为92.96%，因此80.04%仍有12.92个百分点的差距。

谷歌图表显示Gemini-SQL2领先于八个命名的竞争对手以及多个未标记的点。图表中只有80.04%标注为文本。以下数值从图表位置读取，为近似值，日期反映每个点的水平位置。

系统组织BIRD执行准确率（单模型）图表日期 Gemini-SQL2 谷歌 80.04%（标注） 2026年6月 Gemini-SQL 谷歌 ~77.2% 2026年3月 Q-SQL AWS ~76.5% 2025年12月 Databricks RLVR 32B Databricks ~75.7% 2025年7月 SiriusAI-Text2SQL-32B-v2 腾讯 ~75.0% 2025年12月 Arctic-Text2SQL-R1-32B Snowflake ~73.9% 2025年6月 GPT-5.5-xhigh OpenAI ~72.5% 2026年4月 SQLWeaver-32B 阿里巴巴 ~71.7% 2026年5月 Claude Opus 4.6 Anthropic ~70.1% 2026年2月

可见两个模式：谷歌现在占据前两名，即Gemini-SQL2和Gemini-SQL。多个专门的32B SQL模型也在此图表上高于一些通用前沿模型。

用例包括自助分析、数据工程草稿和嵌入式“查询数据”功能。例如，收入经理询问按地区划分的月经常性收入，以及升级后90天内流失的账户。这需要连接、窗口逻辑和日期算术。执行验证的生成可以捕获运行但返回错误行的SQL。数据工程师可以用英语草拟BigQuery转换，然后进行审查。谷歌2025年11月的工作指出模式理解是难点。更高的BIRD分数反映了对模糊列和混乱值的更好处理。对于嵌入式功能，80%的准确率意味着五分之一的查询可能出错，因此仍需人工审查。

谷歌尚未发布Gemini-SQL2的模型字符串或API。文中提供了基于当前Gemini模型的模式基础实现模式，但需要等到Gemini-SQL2发布后才能更换模型字符串。这种模式包括执行验证循环，以捕获错误并重试。

总体而言，Gemini-SQL2的发布展示了文本到SQL领域的显著进展，但公开细节有限。开发者需关注谷歌后续的API和产品集成更新。