AI News HubLIVE
サイト内リライト2 分で読了

KathaTrace: 生成されたビジュアルナラティブにおけるセマンティック軌道崩壊の診断

KathaTraceは、ビジュアルナラティブにおけるセマンティック軌道崩壊(シーン間の意味的つながりの喪失)を診断するためのジェネレーター非依存のプロトコルです。研究者は、古典的なコレクションからの5000のナラティブを含むKathaBench-25Kデータセットを構築し、セマンティック軌道ギャップ(STG)指標を定義しました。実験では、最先端のジェネレーターでSTGが23.5±1.3と大きいことが示されました。また、Semantic Compassというポスト生成修復手法も提案されています。

ソースarXiv Computer Vision著者: Jamuna S. Murthy, Amin Karimi Monsefi, Rajiv Ramnath

ビジュアルナラティブは、ストーリーボード、漫画、子供向けメディア、映画のプリビジュアライゼーションにおいて中心的な役割を果たしており、視聴者は画像のみからストーリーを理解します。StoryDiffusionのような最近のジェネレーターは一貫性のあるシーケンスを生成しますが、視覚的な一貫性はソースストーリーの遷移の意味が回復可能であることを保証しません。既存のベンチマークは、視覚品質、コンテンツの忠実性、シーンの一貫性を評価しますが、シーンが視覚的に一貫しているように見えながら、シーン間の意味的なリンクが消失するという重要な障害モードを見落としています。

そこで研究者は、KathaTraceを導入しました。これはジェネレーターに依存しないプロトコルで、セマンティック軌道崩壊(あるシーンがどのように次のシーンに続くかを理解するために必要な遷移の意味の喪失)を診断します。KathaTraceは、テキストのみ、画像のみ、テキスト+画像の3つの証拠条件で遷移を評価し、曖昧な項目をフィルタリングします。また、KathaBench-25Kを提供します。これは、イソップ寓話、パンチャタントラ、カタサリタサーガラなどの古典的なコレクションからの5000のナラティブ、20000の遷移、28712の回復可能性質問を含みます。

研究者は、セマンティック軌道ギャップ(STG)を、テキストのみの回復可能性から画像のみの回復可能性を引いたものとして定義し、可視化中に失われた遷移の意味を測定します。人間による検証では、Fleissのkappa = 0.845が得られました。最先端のジェネレーターでの実験では、STGが23.5±1.3と顕著であることが示されました。Semantic Compassは、KathaTrace信号を利用してポスト生成修復を行い、ストーリーボードの選択を改善するアクション可能なプローブです。

この研究は、ビジュアルナラティブ生成の評価と改善に重要なツールを提供します。KathaTraceプロトコルは、既存のジェネレーターの限界を明らかにし、人間の意味理解に沿ったビジュアルナラティブシステムの設計への道を開きます。