AI News HubLIVE
サイト内リライト3 分で読了

AIエージェントを使ってトレーニングデータを修正する方法 | Unstructured

Unstructuredは、高品質だがアノテーションスタイルが一致しないデータセットを組み合わせると、モデルのパフォーマンスが低下することを発見しました。彼らはVLMを使ったエージェント型ラベル調和パイプラインを構築し、トレーニング前にラベルの違いを調整した結果、14の指標で改善が見られました。

AIモデルのトレーニングにおいて、多くの人は「より多くのデータ=より良いモデル」と考えがちです。しかし、Unstructuredチームの経験は直感に反する現象を明らかにしました。彼らがレイアウト検出モデルを改善するために2つの高品質な文書データセットを組み合わせたところ、モデルのパフォーマンスがすべての指標で低下したのです。検出品質が悪化し、テーブル構造が劣化し、読み取り順序が後退しました。データ量が増えたにもかかわらず、モデルの性能は低下しました。

この発見は、アノテーションの不一致に関する新しい論文の主題となりました。アノテーションの不一致とは、一見互換性のあるデータセット間で、同じ要素のラベル付け方法に微妙かつ重大な違いがある問題です。例えば、「段落」というカテゴリーについて、一方のデータセットはテキストにぴったり沿ったタイトなバウンディングボックスで注釈を付け、もう一方のデータセットは周囲の空白を含む粗いブロックで注釈を付けます。同じラベル名でありながら、空間的な意味はまったく異なります。このような差異は、タイトル、テーブル、フォーム、キャプション、リスト構造にも見られました。モデルは矛盾する定義を同時に学習し、それらを解決する方法がないまま、両方を真のラベルとして吸収して混乱します。

この問題を解決するため、Unstructuredは「エージェント型ラベル調和」ワークフローを構築しました。トレーニングを開始する前に、VLM(視覚言語モデル)エージェントが各文書ページを既存のアノテーションと併せて処理し、実際の視覚的レイアウトを確認した上で、すべてのアノテーションを単一の一貫した基準に調整します。エージェントは、同じ領域に属するアノテーションを統合したり、ずれた境界を修正したり、必要に応じてカテゴリーを再割り当てしたりできますが、新しい領域を捏造したり既存のものを破棄したりすることはできません。これにより、すべてのアノテーションが元のデータセットに関係なく同じ「言語」で表現されるトレーニングセットが得られます。

チームは3つのモデル(ベースライン、混合データセットでの単純なファインチューニング、調和後のファインチューニング)をSCORE-Benchベンチマークで評価しました。調和されたモデルは17の指標中14で優れていました。さらに重要なことに、混合データセットでの単純なファインチューニングはベースラインと比較してパフォーマンスを悪化させており、アノテーションの衝突を修正せずにデータを追加することがモデルを積極的に劣化させることが示されました。具体的な数値としては、テーブルTEDSが0.800から0.814に、検出Fスコアが0.860から0.883に向上し、平均バウンディングボックスオーバーラップが0.043から0.016へと2.6倍減少しました。これらの改善は、アーキテクチャ、計算リソース、トレーニングポリシーを一切変更せず、よりクリーンな監視信号のみによって達成されました。モデルの埋め込み空間の可視化でも、調和後にクラスタがより明確に分離されていることが確認され、単純なファインチューニングではクラスタが乱れ、カテゴリーが互いににじんでいました。

アノテーションの不一致は文書AIに固有の問題ではなく、独立にキュレーションされたソースを組み合わせてファインチューニングを行う誰もが直面する可能性があります。互換性のあるラベル名が互換性のある監視を意味するという前提は、ほとんどの場合何らかの程度で誤りです。監視の一貫性は、トレーニングを開始する前に真剣に考慮すべき変数です。モデルが学習する品質は、与えるデータの量だけでなく、そのデータが理解させたいタスクをどれだけ首尾一貫して定義しているかによって形作られます。Unstructuredの経験は、データの一貫性を確保することが、単にデータ量を増やすよりもモデル性能を向上させる効果的な方法であることを示しています。