2026-06-17站内改写1 分で読了更新: 2026-06-17

デジタルツイン表現を用いた強化学習によるLLMの訓練：推論集約型手術ビデオQA

既存の手術ビデオ質問応答手法はビデオを離散トークンに圧縮し、知覚と推論を結合するため、多段階推論が制限される。本論文は、強化学習フレームワークを導入し、手術基盤モデルから構築されたデジタルツイン表現上でLLMを動作させることで知覚と推論を分離する。階層表現と新しい報酬を導入し、大腸内視鏡ベンチマークREAL-Colon-Reasonを提案、複数のベンチマークで最先端の性能を達成。

ソースarXiv Computer Vision著者: Yiqing Shen, Han Zhang, Mathias Unberath

手術ビデオ質問応答（Surgical VideoQA）は、意味的、空間的、時間的次元にわたる多段階推論を必要とする困難なタスクです。既存の手法では、ビデオを離散トークン表現に圧縮し、視覚認識と推論を密接に結合させるアーキテクチャが一般的でした。このアプローチは、連続的な時空間関係を断片化し、多段階推論の能力を著しく制限することが知られています。この問題に対処するため、本研究では強化学習（RL）フレームワークを導入します。このフレームワークは、手術基盤モデルから構築されたデジタルツイン表現上で大規模言語モデル（LLM）を訓練し、知覚と推論を効果的に分離します。さらに、フレーム、時間ウィンドウ、手術手順の各レベルにわたる階層的表現を導入し、確率的不確実性推定を組み込むことで、手術ビデオ特有の複雑なダイナミクスに対応します。また、フォーマット検証と臨床的妥当性評価を組み合わせた新しい報酬関数を設計し、不確実性を考慮したキャリブレーションにより訓練を最適化します。提案手法の有効性を実証するため、大腸内視鏡手術ビデオQAのベンチマーク「REAL-Colon-Reason」を新たに構築しました。このベンチマークは2,000の質問応答ペアからなり、3つの複雑度レベルに分類されています。実験の結果、提案手法はREAL-Colon-Reasonに加え、既存の2つのベンチマーク（REAL-Colon-VQA、EndoVis18-VQA）においても最先端の性能を達成しました。この研究成果は、手術ビデオ理解の新たな可能性を開き、より高度な知能手術支援システムの開発に貢献することが期待されます。