MIT研究者、AIモデルにグラフ解釈を教える
MITとMIT-IBMコンピューティング研究ラボの研究者らは、100万以上の多様なグラフを含むChartNetデータセットを開発し、視覚言語モデルのトレーニングに活用。小規模なオープンソースモデルが大規模な商用モデルを凌駕し、予算の限られた中小企業でもAIを活用しやすくなると期待される。
グローバル市場での迅速な意思決定を支援するため、企業は生成AIモデルを用いてグラフの要約や解釈を行うことがある。しかし、最新の視覚言語モデル(VLM)でも、視覚・数値・言語情報を統合するタスクには苦戦することが多い。このギャップを埋めるため、MITとMIT-IBMコンピューティング研究ラボの研究者らは、VLMにグラフ解釈を効果的に教えるための多面的リソース「ChartNet」を開発した。
ChartNetデータセットは、新しいデータ生成手法を用いて構築され、100万以上の多様なグラフ画像を含む。各グラフには、視覚的・言語的・数値的コンポーネントがエンコードされており、モデルがグラフ情報を堅牢に推論できるよう支援する。研究者らはChartNetを用いて一連のオープンソースVLMを訓練し、データ抽出やグラフ要約のタスクにおいて、多くの小規模モデルが桁違いに大きな商用モデルを凌駕することを確認した。
「ChartNetはグラフ理解のワンストップショップとして設計され、AIモデルとその訓練実務者が求めるほぼすべてをカバーしています。無限の計算リソースを必要とせず、小規模モデルで最先端の性能を達成する研究を促進したいと考えています」と、MIT電子工学・コンピュータ科学科の大学院生で論文の主著者であるJovana Kondic氏は述べる。
ChartNetの構築には、既存のグラフ画像をコードに変換し、そのコードを反復的に拡張してグラフの種類、データ値、トピック、色などを変更する2段階の合成データ生成パイプラインが用いられた。また、人間の専門家による注釈付きグラフデータも含まれており、さらなる多様性と有効性を保証する。
研究チームは今後、ChartNetをさらに複雑なデータで拡張し、研究コミュニティからのフィードバックを取り入れる計画だ。この研究の一部はMIT-IBMコンピューティング研究ラボの助成を受けており、IEEEコンピュータビジョン・パターン認識会議で発表される予定である。
ChartNetの開発は、高品質な訓練データの不足というボトルネックに対処するために行われた。生成AIは自然言語処理や自然画像の推論で大きな進歩を遂げているが、グラフに含まれる複雑なマルチモーダルデータの解釈にはまだ課題がある。Kondic氏は「視覚言語モデルは人間の脳とは異なり、訓練中に何千もの例を見ないと折れ線グラフを確実に認識できない」と指摘する。
この問題を克服するため、研究者らは合成データ生成に着目した。ChartNetデータセットには、100万以上の高品質なグラフ画像に加え、各グラフを生成するためのコード、テキスト説明、数値情報を含むテーブルが含まれている。さらに、各データポイントには質問と回答のペアが含まれており、モデルがグラフ画像に関する質問に正しく答える方法を学習できる。Kondic氏は「これらの追加データモードにより、モデルはグラフ画像がエンコードする異なる情報を接続し、整合させることができる」と説明する。
データ生成パイプラインは2段階で構成される。まず、自動システムが既存のグラフ画像をコードに変換する。次に、そのコードを反復的に拡張してグラフの種類、データ値、トピック、色などを変更する。「単一のグラフをシードとして使用し、そこから何百もの拡張を生成できます。これにより、100万以上の多様な画像を含むデータセットを構築できました」とKondic氏は語る。
また、合成データの品質を保証するための自動品質チェックプロセスも組み込まれている。このプロセスでは、コードが実行可能であること、レンダリングされたグラフ画像が正確でクリーンであることを検証する。「多様なサンプルを生成するだけでなく、情報が意味のある形で提示されるようにしたい」と彼女は述べる。
ChartNetには、人間の専門家によって注釈が付けられたグラフデータポイントも含まれている。これにより、追加のグラフタイプと有効性が保証されたデータが提供される。Joshi氏は「実務者は注釈付きデータを使用して既存のVLMを微調整し、特定のアプリケーションのパフォーマンスをさらに向上させることができる」と付け加える。
研究者らは、IBMのGranite Visionシリーズのモデルや他のさまざまなサイズのオープンソースモデルを訓練し、さまざまなグラフ解釈タスクで評価することでChartNetをテストした。データセットは、グラフ再構築、グラフデータ抽出、グラフ要約、グラフ質問応答においてすべてのモデルの精度を向上させた。ChartNetにより、小規模なオープンソースモデルは一貫してはるかに大きな商用モデルを上回った。
「以前の訓練データセットの多くは、グラフに関する単純な質問に答えることにのみ焦点を当てていました。ChartNetでは、堅牢なグラフ理解のあらゆる側面をサポートするデータを生成することで、それを超えようとしました」とKondic氏は語る。将来、研究者らはより複雑なデータを組み込んでChartNetを拡張し、研究コミュニティからのフィードバックを活用する計画である。