AI News HubLIVE
站内改写2 分鐘閱讀

MIT研究人員教會AI模型解讀圖表

MIT和MIT-IBM計算研究實驗室的研究人員開發了ChartNet資料集,包含超過一百萬張多樣化圖表,用於訓練視覺語言模型。該資料集使小型開源模型在圖表理解任務上超越大型商業模型,有望幫助預算有限的小型企業更有效地利用AI。

來源MIT News AI作者: Adam Zewe | MIT News

在快節奏的全球市場中,企業常部署生成式AI模型來總結和解讀圖表,以加速決策。然而,即便是最先進的視覺語言模型(VLM)也常難以準確處理涉及視覺、數字和語言理解的複雜任務。為填補這一空白,MIT與MIT-IBM計算研究實驗室的研究人員開發了一套名為ChartNet的多功能資源,專門用於訓練VLM高效解讀圖表。

ChartNet資料集採用新穎的資料生成方法構建,包含超過一百萬張多樣化圖表,並編碼了每張圖表的視覺、語言和數值組成部分。研究人員用該資料集訓練了一系列開源VLM,發現許多小型模型在資料提取和圖表總結等任務上顯著優於規模大幾個數量級的商業模型。例如,在圖表重建、資料提取、總結和問答測試中,ChartNet提升了所有模型的準確率。

該研究的領導者、MIT電子工程與電腦科學研究生Jovana Kondic表示:“ChartNet旨在成為圖表理解的一站式資源,覆蓋AI模型和訓練人員可能需要的所有內容。我們希望這項工作能激勵研究人員用更小的模型實現最先進的效能,而無需無限計算資源。”

ChartNet的構建採用了兩步合成資料生成流程:首先,自動系統將現有圖表影像轉換為程式碼;然後,系統迭代修改程式碼以改變圖表型別、資料值、主題、顏色等多個方面。此外,資料集還包含人類專家標註的圖表資料點,提供額外的有效性和多樣性保證。

研究團隊計劃未來繼續擴充套件ChartNet,加入更復雜的資料,並吸收研究社群的反饋。這項研究部分由MIT-IBM計算研究實驗室資助,相關論文將在IEEE計算機視覺與模式識別會議上發表。

ChartNet的誕生源於一個關鍵瓶頸:高質量訓練資料的缺乏。儘管生成式AI在自然語言處理和自然影像推理方面取得了巨大進步,但在解讀圖表這類複雜多模態資料上仍進展緩慢。Kondic指出:“視覺語言模型不像人腦,它可能需要訓練中看到數千個示例才能可靠地識別出折線圖。”

為解決這一問題,研究人員採用合成資料生成技術。ChartNet資料集包含超過一百萬張高質量圖表影像,以及每張圖表的生成程式碼、文本描述和包含數值資訊的表格。此外,每個資料點還包括問答對,用以訓練模型正確回答關於圖表的問題。Kondic說:“這些額外的資料模式引導模型連線和對齊圖表影像編碼的不同資訊。”

為了構建ChartNet,研究人員建立了一個兩步合成資料生成流水線。首先,自動化系統將任何預先存在的圖表影像集轉換為程式碼。然後,系統迭代增強該程式碼,改變每個圖表的各個方面,如圖表型別、資料值、主題、顏色等。“我們可以從一個圖表作為種子開始,然後生成數百個變體。這就是我們能夠構建包含超過一百萬張多樣化影像資料集的方法,”Kondic解釋道。

他們還加入了自動化質量檢查流程,以確保合成資料的高質量。該流程驗證程式碼是否可執行,以及渲染的圖表影像是否準確和清晰。“我們不僅僅想要生成多樣化的樣本,還希望資訊以有意義的方式呈現,”她說。

ChartNet還包括由人類專家標註的圖表資料點選擇,這提供了額外型別的圖表和支援資料,並帶有有效性保證。Joshi補充說,從業者可以使用這些標註資料對現有VLM進行微調,進一步提升特定應用的效能。

研究人員透過訓練IBM的Granite Vision系列模型以及其他各種大小的開源模型,並在各種圖表解讀任務上評估它們來測試ChartNet。該資料集提高了所有模型在圖表重建、圖表資料提取、圖表總結和圖表問答中的準確性。透過ChartNet,小型開源模型始終優於更大的商業模型。

“很多以前的訓練資料集只專注於回答關於圖表的簡單問題。我們試圖透過ChartNet超越這一點,生成支援穩健圖表理解所有方面的資料,”Kondic說。未來,研究人員計劃透過加入更復雜的資料來繼續擴充套件ChartNet,並希望吸收研究社群的反饋。