介绍TabFM:面向表格数据的零样本基础模型
谷歌研究推出TabFM,一种直接集成到BigQuery ML中的新型表格数据基础模型,通过上下文学习实现零样本分类与回归,无需手动调参或特征工程。该模型基于合成数据训练,在TabArena基准测试中表现出色。
谷歌研究团队近日发布了TabFM,一个专为表格数据设计的零样本基础模型,并已集成到BigQuery ML中,旨在简化分类与回归工作流。这一创新标志着继TimesFM在时间序列预测领域取得突破后,零样本逻辑在表格数据上的又一重大进展。
长期以来,表格数据是企业数据基础设施的支柱,支撑着大量关键预测性机器学习应用,从客户流失预测到金融欺诈检测。然而,传统监督学习算法(如AdaBoost、XGBoost和随机森林)虽然性能强劲,却面临部署瓶颈:数据科学家需要花费大量时间进行超参数优化和领域特定的特征工程。
TabFM通过将表格预测重新定义为上下文学习(ICL)问题,彻底改变了这一局面。与依赖每个数据集分布单独更新模型参数的传统范式不同,TabFM将整个数据集(包括历史训练样本和目标测试行)作为一个统一提示,在推理时直接从上下文中学习列与行之间的关系。模型无需更新权重即可完成新任务。
为了实现高效的零样本预测,TabFM融合了TabPFN和TabICL等架构的优势,采用了一种新颖的混合设计。其核心机制包括:交替行列注意力(通过多层注意力模块交替处理行和列,捕获复杂特征交互)、行压缩(将每行的交叉注意力信息压缩为密集向量)以及上下文学习(基于压缩向量序列的Transformer操作,大幅降低计算成本)。这种设计使得模型能够高效处理大型数据集。
在训练数据方面,TabFM完全依赖数百万个合成数据集。由于高质量的公开表格数据稀缺且常涉及专有模式,研究团队使用结构因果模型(SCMs)动态生成多样化的合成数据,涵盖广泛分布和复杂特征关系。实验表明,该模型能够很好地泛化到未见过的真实世界表格。
在性能评估上,TabFM在TabArena基准测试中与现有方法进行了激烈较量。该基准基于Elo评分系统,涵盖38个分类数据集和13个回归数据集,样本量从700到150,000不等。结果显示,TabFM的零样本版本(单次前向传播)和增强版TabFM-Ensemble(集成交叉特征、SVD特征及Platt缩放)均显著优于经过调优的传统算法,如XGBoost、CatBoost和随机森林。
展望未来,TabFM将直接集成到Google BigQuery中。用户很快就可以通过简单的AI.PREDICT SQL命令执行高级回归和分类任务,无需机器学习专业知识。这一举措有望将基础模型的便捷性带入表格ML工作流,赋能更广泛的实践者。