AI News HubLIVE
站内改写2 分鐘閱讀

MIT研究人員教會AI模型解讀圖表

MIT和MIT-IBM計算研究實驗室的研究人員開發了ChartNet數據集,包含超過一百萬張多樣化圖表,用於訓練視覺語言模型。該數據集使小型開源模型在圖表理解任務上超越大型商業模型,有望幫助預算有限的小型企業更有效地利用AI。

來源MIT News AI作者: Adam Zewe | MIT News

在快節奏的全球市場中,企業常部署生成式AI模型來總結和解讀圖表,以加速決策。然而,即便是最先進的視覺語言模型(VLM)也常難以準確處理涉及視覺、數字和語言理解的複雜任務。為填補這一空白,MIT與MIT-IBM計算研究實驗室的研究人員開發了一套名為ChartNet的多功能資源,專門用於訓練VLM高效解讀圖表。

ChartNet數據集採用新穎的數據生成方法構建,包含超過一百萬張多樣化圖表,並編碼了每張圖表的視覺、語言和數值組成部分。研究人員用該數據集訓練了一系列開源VLM,發現許多小型模型在數據提取和圖表總結等任務上顯著優於規模大幾個數量級的商業模型。例如,在圖表重建、數據提取、總結和問答測試中,ChartNet提升了所有模型的準確率。

該研究的領導者、MIT電子工程與計算機科學研究生Jovana Kondic表示:“ChartNet旨在成為圖表理解的一站式資源,覆蓋AI模型和訓練人員可能需要的所有內容。我們希望這項工作能激勵研究人員用更小的模型實現最先進的性能,而無需無限計算資源。”

ChartNet的構建採用了兩步合成數據生成流程:首先,自動系統將現有圖表圖像轉換為代碼;然後,系統迭代修改代碼以改變圖表類型、數據值、主題、顏色等多個方面。此外,數據集還包含人類專家標註的圖表數據點,提供額外的有效性和多樣性保證。

研究團隊計劃未來繼續擴展ChartNet,加入更復雜的數據,並吸收研究社區的反饋。這項研究部分由MIT-IBM計算研究實驗室資助,相關論文將在IEEE計算機視覺與模式識別會議上發表。

ChartNet的誕生源於一個關鍵瓶頸:高質量訓練數據的缺乏。儘管生成式AI在自然語言處理和自然圖像推理方面取得了巨大進步,但在解讀圖表這類複雜多模態數據上仍進展緩慢。Kondic指出:“視覺語言模型不像人腦,它可能需要訓練中看到數千個示例才能可靠地識別出折線圖。”

為解決這一問題,研究人員採用合成數據生成技術。ChartNet數據集包含超過一百萬張高質量圖表圖像,以及每張圖表的生成代碼、文本描述和包含數值信息的表格。此外,每個數據點還包括問答對,用以訓練模型正確回答關於圖表的問題。Kondic説:“這些額外的數據模式引導模型連接和對齊圖表圖像編碼的不同信息。”

為了構建ChartNet,研究人員創建了一個兩步合成數據生成流水線。首先,自動化系統將任何預先存在的圖表圖像集轉換為代碼。然後,系統迭代增強該代碼,改變每個圖表的各個方面,如圖表類型、數據值、主題、顏色等。“我們可以從一個圖表作為種子開始,然後生成數百個變體。這就是我們能夠構建包含超過一百萬張多樣化圖像數據集的方法,”Kondic解釋道。

他們還加入了自動化質量檢查流程,以確保合成數據的高質量。該流程驗證代碼是否可執行,以及渲染的圖表圖像是否準確和清晰。“我們不僅僅想要生成多樣化的樣本,還希望信息以有意義的方式呈現,”她説。

ChartNet還包括由人類專家標註的圖表數據點選擇,這提供了額外類型的圖表和支持數據,並帶有有效性保證。Joshi補充説,從業者可以使用這些標註數據對現有VLM進行微調,進一步提升特定應用的性能。

研究人員通過訓練IBM的Granite Vision系列模型以及其他各種大小的開源模型,並在各種圖表解讀任務上評估它們來測試ChartNet。該數據集提高了所有模型在圖表重建、圖表數據提取、圖表總結和圖表問答中的準確性。通過ChartNet,小型開源模型始終優於更大的商業模型。

“很多以前的訓練數據集只專注於回答關於圖表的簡單問題。我們試圖通過ChartNet超越這一點,生成支持穩健圖表理解所有方面的數據,”Kondic説。未來,研究人員計劃通過加入更復雜的數據來繼續擴展ChartNet,並希望吸收研究社區的反饋。