介紹TabFM:面向表格資料的零樣本基礎模型
谷歌研究推出TabFM,一種直接整合到BigQuery ML中的新型表格資料基礎模型,透過上下文學習實現零樣本分類與迴歸,無需手動調參或特徵工程。該模型基於合成資料訓練,在TabArena基準測試中表現出色。
谷歌研究團隊近日釋出了TabFM,一個專為表格資料設計的零樣本基礎模型,並已整合到BigQuery ML中,旨在簡化分類與迴歸工作流。這一創新標誌著繼TimesFM在時間序列預測領域取得突破後,零樣本邏輯在表格資料上的又一重大進展。
長期以來,表格資料是企業資料基礎設施的支柱,支撐著大量關鍵預測性機器學習應用,從客戶流失預測到金融欺詐檢測。然而,傳統監督學習演算法(如AdaBoost、XGBoost和隨機森林)雖然效能強勁,卻面臨部署瓶頸:資料科學家需要花費大量時間進行超引數最佳化和領域特定的特徵工程。
TabFM透過將表格預測重新定義為上下文學習(ICL)問題,徹底改變了這一局面。與依賴每個資料集分佈單獨更新模型引數的傳統正規化不同,TabFM將整個資料集(包括歷史訓練樣本和目標測試行)作為一個統一提示,在推理時直接從上下文中學習列與行之間的關係。模型無需更新權重即可完成新任務。
為了實現高效的零樣本預測,TabFM融合了TabPFN和TabICL等架構的優勢,採用了一種新穎的混合設計。其核心機制包括:交替行列注意力(透過多層注意力模組交替處理行和列,捕獲複雜特徵互動)、行壓縮(將每行的交叉注意力資訊壓縮為密集向量)以及上下文學習(基於壓縮向量序列的Transformer操作,大幅降低計算成本)。這種設計使得模型能夠高效處理大型資料集。
在訓練資料方面,TabFM完全依賴數百萬個合成資料集。由於高質量的公開表格資料稀缺且常涉及專有模式,研究團隊使用結構因果模型(SCMs)動態生成多樣化的合成資料,涵蓋廣泛分佈和複雜特徵關係。實驗表明,該模型能夠很好地泛化到未見過的真實世界表格。
在效能評估上,TabFM在TabArena基準測試中與現有方法進行了激烈較量。該基準基於Elo評分系統,涵蓋38個分類資料集和13個迴歸資料集,樣本量從700到150,000不等。結果顯示,TabFM的零樣本版本(單次前向傳播)和增強版TabFM-Ensemble(整合交叉特徵、SVD特徵及Platt縮放)均顯著優於經過調優的傳統演算法,如XGBoost、CatBoost和隨機森林。
展望未來,TabFM將直接整合到Google BigQuery中。使用者很快就可以透過簡單的AI.PREDICT SQL命令執行高階迴歸和分類任務,無需機器學習專業知識。這一舉措有望將基礎模型的便捷性帶入表格ML工作流,賦能更廣泛的實踐者。