介紹TabFM:面向表格數據的零樣本基礎模型
谷歌研究推出TabFM,一種直接集成到BigQuery ML中的新型表格數據基礎模型,通過上下文學習實現零樣本分類與迴歸,無需手動調參或特徵工程。該模型基於合成數據訓練,在TabArena基準測試中表現出色。
谷歌研究團隊近日發佈了TabFM,一個專為表格數據設計的零樣本基礎模型,並已集成到BigQuery ML中,旨在簡化分類與迴歸工作流。這一創新標誌着繼TimesFM在時間序列預測領域取得突破後,零樣本邏輯在表格數據上的又一重大進展。
長期以來,表格數據是企業數據基礎設施的支柱,支撐着大量關鍵預測性機器學習應用,從客户流失預測到金融欺詐檢測。然而,傳統監督學習算法(如AdaBoost、XGBoost和隨機森林)雖然性能強勁,卻面臨部署瓶頸:數據科學家需要花費大量時間進行超參數優化和領域特定的特徵工程。
TabFM通過將表格預測重新定義為上下文學習(ICL)問題,徹底改變了這一局面。與依賴每個數據集分佈單獨更新模型參數的傳統範式不同,TabFM將整個數據集(包括歷史訓練樣本和目標測試行)作為一個統一提示,在推理時直接從上下文中學習列與行之間的關係。模型無需更新權重即可完成新任務。
為了實現高效的零樣本預測,TabFM融合了TabPFN和TabICL等架構的優勢,採用了一種新穎的混合設計。其核心機制包括:交替行列注意力(通過多層注意力模塊交替處理行和列,捕獲複雜特徵交互)、行壓縮(將每行的交叉注意力信息壓縮為密集向量)以及上下文學習(基於壓縮向量序列的Transformer操作,大幅降低計算成本)。這種設計使得模型能夠高效處理大型數據集。
在訓練數據方面,TabFM完全依賴數百萬個合成數據集。由於高質量的公開表格數據稀缺且常涉及專有模式,研究團隊使用結構因果模型(SCMs)動態生成多樣化的合成數據,涵蓋廣泛分佈和複雜特徵關係。實驗表明,該模型能夠很好地泛化到未見過的真實世界表格。
在性能評估上,TabFM在TabArena基準測試中與現有方法進行了激烈較量。該基準基於Elo評分系統,涵蓋38個分類數據集和13個迴歸數據集,樣本量從700到150,000不等。結果顯示,TabFM的零樣本版本(單次前向傳播)和增強版TabFM-Ensemble(集成交叉特徵、SVD特徵及Platt縮放)均顯著優於經過調優的傳統算法,如XGBoost、CatBoost和隨機森林。
展望未來,TabFM將直接集成到Google BigQuery中。用户很快就可以通過簡單的AI.PREDICT SQL命令執行高級迴歸和分類任務,無需機器學習專業知識。這一舉措有望將基礎模型的便捷性帶入表格ML工作流,賦能更廣泛的實踐者。