为现实世界设计合成数据集:从第一性原理出发的机制设计与推理
谷歌推出Simula框架,将合成数据生成重新定义为数据集层面的机制设计。通过从第一性原理出发的推理式方法,Simula实现了对数据覆盖度、复杂度和质量的精细控制,适用于隐私敏感或数据稀缺的专门领域。
谷歌研究院推出Simula框架,旨在解决专门AI领域数据稀缺的问题。与依赖人类种子数据或黑箱进化算法的传统方法不同,Simula采用“推理优先”的方法,从第一性原理出发构建整个数据集。该框架将合成数据生成重新定义为数据集层面的机制设计问题,使覆盖度、复杂度和质量成为独立可控的变量。
Simula将生成过程分解为四个步骤:全局多样化、局部多样化、复杂化和质量检查。首先,通过推理模型递归扩展目标领域的概念空间,构建深层层次分类树,确保数据集覆盖长尾分布。然后,基于分类树节点生成“元提示”,并通过1-of-N采样生成多个不同实例,防止模式崩溃。接着,通过可配置的复杂化步骤调整数据难度。最后,采用双评论家循环独立验证答案正确性,减少谄媚行为,保证标签质量。
在评估方面,Simula引入了基于推理的指标,如分类覆盖率和校准复杂度评分(基于Elo评级),以更好地捕捉多样性和难度的细微差别。实验使用Gemini 2.5 Flash作为教师模型,Gemma-3 4B作为学生模型,在网络安全、法律推理、数学推理和多语言学术知识等五个领域生成了多达51.2万个数据点。结果表明,完整的Simula系统始终优于简单基线,但不存在通用的最优生成策略:例如,高复杂度在数学推理中带来10%的准确率提升,但在法律推理中却降低了性能。数据必须根据模型能力量身定制,且更好的数据比更多的数据更重要。
Simula已在谷歌内部广泛用于实际业务。它支撑了Gemma生态系统(如ShieldGemma、FunctionGemma、MedGemma)以及设备端和服务器端Gemini安全分类器的合成数据生成。此外,它还用于安卓通话的AI诈骗检测和谷歌消息的垃圾邮件过滤等功能。研究团队表示,合成数据将在科学、安全、法律等领域的下一波AI突破中发挥核心作用,而Simula证明了机制设计能使数据生成成为可控的科学。
更多细节:谷歌博文发表于2026年4月16日,作者包括Tim R. Davidson和Hamza Harkous。Simula在五个领域生成多达512K数据点。评估中,全系统始终优于基线,但高复杂度并非对所有任务有益。实际应用包括Gemma系列模型和用户保护功能。这些成果展示了合成数据作为可控科学工具的潜力。