2026-07-01 15:48 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 16:22 UTC+8

Google AI 推出 TabFM：用於零樣本分類和迴歸的混合注意力表格基礎模型

Google Research 釋出了 TabFM，一種專門為表格資料設計的基礎模型。它透過上下文學習實現零樣本分類和迴歸，無需針對每個資料集進行訓練、超引數調優或特徵工程。該模型結合了 TabPFN 的行/列注意力機制和 TabICL 的上下文學習方法，並在數百萬個合成資料集上訓練。在 TabArena 基準測試中，TabFM 的表現優於經過充分調優的 XGBoost 等傳統方法。

來源MarkTechPost作者: Asif Razzaq

Google Research 正式釋出了 TabFM，這是一個為表格資料量身打造的基礎模型。表格資料是企業資料基礎設施的核心，廣泛應用於客戶流失預測、金融欺詐檢測等場景。傳統上，基於樹的方法（如 XGBoost、AdaBoost 和隨機森林）在這一領域佔據主導地位，但它們需要大量的超引數調優和特徵工程，耗時耗力。TabFM 的目標就是打破這一瓶頸。

TabFM 將零樣本學習的理念引入表格資料。它採用上下文學習（In-Context Learning, ICL）技術，可以在一個前向傳播中完成對新資料集的預測，無需更新模型權重或進行任何額外訓練。其架構融合了 TabPFN 和 TabICL 兩種方法：透過交替的行和列注意力機制捕捉特徵之間的互動關係，並透過行壓縮技術降低計算成本。

為了訓練這樣一個大規模模型，Google 的研究團隊使用了數億個由結構因果模型（SCMs）動態生成的合成資料集。這些資料集涵蓋了廣泛的資料分佈和複雜特徵關係，使模型能夠很好地泛化到真實世界的資料上。

在評估方面，TabFM 在 TabArena 基準上進行了測試，該基準包含 38 個分類資料集和 13 個迴歸資料集，樣本量從 700 到 150,000 不等。兩個配置版本——普通 TabFM 和 TabFM-Ensemble——均表現出色，甚至超過了經過充分調優的 XGBoost 等工業級監督演算法。TabFM-Ensemble 透過新增交叉特徵和 SVD 特徵，並使用非負最小二乘法求解最優權重，進一步提升了效能。

TabFM 目前已開源，可在 Hugging Face 和 GitHub 上獲取。安裝過程簡單，需克隆倉庫並使用 CPU 或 GPU 版本的 JAX。以下是一個簡單的使用示例：載入預訓練模型後，建立分類器，準備包含年齡、職業和收入等特徵的資料集，然後呼叫 fit 和 predict 方法。注意，fit 方法僅對訓練資料進行編碼，並不訓練模型權重。除了分類，TabFM 還支援迴歸任務，例如房價預測。

Google 還計劃透過 BigQuery 的 AI.PREDICT SQL 命令提供 TabFM 的訪問介面，這將是該模型在企業級應用中的重要一步。