2026-06-16站内改写2 分で読了更新: 2026-06-16

FUSE：ベイズ融合による視覚言語モデルの不確実性の定量化—認識論的不確実性と偶然的不確実性の融合

視覚言語モデル（VLM）はロボット工学など重要分野で広く利用され、出力の不確実性定量化が不可欠です。FUSEは、データの曖昧性に起因する偶然的埋め込みレベルの不確実性と、モデルの応答多様性に由来する認識論的モデルレベルの不確実性の2つを補完的に捉える確率的フレームワークです。ベイズ融合機構によりこれらを結合し、スカラー不確実性指標を生成。下流タスクで出力の正しさを予測し、最先端の較正を実現します。

ソースarXiv Computer Vision著者: Harry Zhang, Luca Carlone

視覚言語モデル（VLM）は、ロボット工学や自動運転など、安全性が重視される分野でますます重要な役割を果たしています。しかし、モデルの出力に対する信頼性を評価することは依然として大きな課題です。VLMは通常、膨大なマルチモーダルデータで訓練されるため、その予測は入力の曖昧性やモデル自身の限界により不確実性が生じる可能性があります。この不確実性を定量化しなければ、下流のタスク（例えばロボットの操作や医用画像解析）で深刻な誤りを引き起こす恐れがあります。

そこで、研究者のHarry Zhang氏らは、VLMにおける2つの相補的な不確実性の源泉を体系的に捉える確率的フレームワーク「FUSE」を提案しました。第一は「偶然的不確実性」で、入力データの視覚・言語の曖昧性（例えばぼやけた画像やあいまいなテキスト記述）に起因します。これはデータそのものの性質であり、訓練データを増やしても消去できません。第二は「認識論的不確実性」で、モデルが同一入力に対して異なる意味的応答を示す多様性から推定され、モデルの知識の不完全性を反映します。

FUSEの核心はベイズ融合機構にあります。まず確率モデリングにより埋め込み空間から偶然的不確実性を抽出し、次に意味的応答の多様性から認識論的不確実性を推定します。これらをベイズ解析により統合し、一つのスカラー値としての不確実性指標を生成します。この指標は、モデルの出力が正しいかどうかを高精度で予測するために使用でき、下流の応用で信頼性の指標として活用できます。

研究チームは、画像キャプション生成や視覚的質問応答などの標準ベンチマークデータセットで実験を実施しました。結果、FUSEは不確実性較正において既存のベースラインを大幅に上回り、最先端（SOTA）性能を達成しました。較正された不確実性推定により、モデルは自身がいつ誤る可能性があるかをより正確に認識できるようになります。

本研究成果は2026年6月1日にarXivに投稿され、論文タイトルは「FUSE: Quantifying Uncertainty in Vision-Language Models by Bayesian Fusing Epistemic and Aleatoric Uncertainty」です。コードは後日公開予定です。この進展は、VLMが安全クリティカルなアプリケーション、例えばモデルが不確実な場合に人間の介入を求めたり安全策を取るシステムへの実装を促進することが期待されます。