我們如何教會AI智能體修復訓練數據 | Unstructured
Unstructured發現,合併高質量但標註風格不一致的數據集反而降低了模型性能。他們構建了一個基於VLM的智能體標籤統一流水線,在訓練前協調標註差異,最終在14項指標上取得提升。
在AI模型訓練中,許多人直觀地認為更多數據意味着更好的模型。Unstructured團隊的實踐經驗卻揭示了一個反直覺的現象:當他們合併兩個高質量文檔數據集以改進佈局檢測模型時,模型在所有監控指標上的表現反而下降了。檢測質量下滑,表格結構變差,閲讀順序迴歸。數據量增加了,模型卻變得更糟。
這一發現促使他們深入研究,最終發表了一篇關於標註不一致性的論文。標註不一致是指在表面上兼容的數據集之間,對同一元素的標註方式存在細微但關鍵的差異。例如,對於“段落”這一類別,一個數據集可能使用緊貼文本的緊密邊界框,而另一個數據集則繪製包含周圍空白區域的粗框。相同的標籤名稱,卻承載着完全不同的空間含義。這種差異同樣出現在標題、表格、表單、標題和列表結構中。當模型接收來自不同數據集的訓練數據時,它同時學習到互相矛盾的定義,無法自行解決分歧,只是將兩者都當作真實標註吸收,從而陷入混亂。
為了解決這一問題,Unstructured的工程師構建了一個“智能體標籤統一”工作流。在訓練開始之前,一個視覺語言模型(VLM)智能體被用來處理每個文檔頁面及其現有標註。該智能體檢查實際視覺佈局,然後將所有標註協調為單一一致的標準。它可以合併屬於同一區域的標註,調整錯位的邊界,或在必要時重新分配類別。但它不能憑空創建新區域或丟棄現有區域。這一過程確保訓練集中的所有標註都使用相同的“語言”,無論它們來自哪個原始數據集。
團隊在SCORE-Bench基準測試上評估了三種模型:基礎模型、直接在混合數據集上微調的模型,以及經過標註統一後微調的模型。結果清楚顯示:統一後的模型在17項指標中的14項上領先。更值得注意的是,直接在混合數據集上簡單微調的模型甚至比原始基線更差,這表明不加修復地增加數據主動損害了模型性能。具體數值方面,表格TEDS從0.800提升至0.814,檢測F分數從0.860提升至0.883,平均邊界框重疊率從0.043降至0.016(降低2.6倍)。所有這些改進都來自於更乾淨的監督信號,模型架構、計算資源和訓練策略均未改變。模型嵌入空間的可視化也驗證了統一後類別分離更加清晰,而簡單微調則導致簇更加混亂、類別互相滲透。
標註不一致並非文檔AI領域特有的問題。任何組合獨立策劃數據源進行微調的研究者或工程師都可能面臨類似挑戰。認為兼容的標籤名稱就意味着兼容的監督幾乎總是錯誤的,只是程度不同。監督一致性是一個在訓練開始前就值得認真對待的關鍵變量。模型學到的質量不僅取決於數據量,還取決於數據定義任務的方式是否一致。Unstructured的經驗表明,花時間確保數據一致性通常比簡單地增加數據量更能提升模型性能。