ディープフェイクベンチマークは何を測定するのか?凍結自己教師あり表現を用いた監査
ビデオ、画像、オーディオのディープフェイクベンチマークを、凍結された汎用自己教師あり表現上の線形プローブで監査したところ、専用検出器の性能に近づくことがわかり、ベンチマークは鑑識的理解ではなく一般的なモダリティ理解を報酬としている可能性が示唆された。
- ディープフェイク検出器はベンチマークでは高得点だが、実環境では頻繁に失敗する。
- 凍結自己教師あり表現の線形プローブが専用検出器の性能に近づく。
ソース詳細
AI News Hub は arXiv Computer Vision の AI 更新を追跡し、ソース状態、利用範囲、収集方法、公開記事を表示します。
Use abstract and metadata; check individual paper license before full text.
ビデオ、画像、オーディオのディープフェイクベンチマークを、凍結された汎用自己教師あり表現上の線形プローブで監査したところ、専用検出器の性能に近づくことがわかり、ベンチマークは鑑識的理解ではなく一般的なモダリティ理解を報酬としている可能性が示唆された。
本論文では、視覚プロンプトチューニングにおいて画像トークンとプロンプトトークンの最適な融合方式を自動的に発見するための微分可能アーキテクチャ探索手法を提案する。学習可能なプロンプトとその融合方式を共同最適化し、アフィン変換とクロスアテンションという2つの新しい融合機構を導入する。34のデータセットでの実験により、ベースラインを一貫して上回る性能を示し、ハイブリッド融合がVision Transformerの層意味論をより効果的に活用できることを明らかにした。
研究者らは、極度の濁度下での水中シーンにおける情報損失を定量化するため、Turbid Underwater Baseline (TUB)データセットと新指標PCDを導入した。PCDはインスタンスセグメンテーション性能と強く相関し、既存の指標を上回る。
GeMoEはトークンルーティングを情報符号化タスクとして捉え、最小記述長原理とゲーティングエントロピーに基づき適応的に専門家を選択し、99.5%の性能を維持しながら専門家活性化スパース性を36.5%向上させる。
本研究は、fMRI認知タスクノミーを単一ソース転移からマルチソース転移へ拡張し、23のHuman Connectome Projectタスク状態にわたってブール整数計画法(BIP)を用いて予算制約下のタスク割り当てを分析した。1,127のタスク特化モデルと転移モデルを訓練。単一ソース転移は方向性とパラダイム構造を持ち、運動状態は運動パラダイム内でよく転移するが非運動目標へのサポートは限定的。マルチソース転移はソースセットの構成に依存し、ペアワイズタスクノミーだけでは多対一関係を完全に捉えられないことを示唆。BIPは予算制約下で0-backおよび2-backワーキングメモリ状態に直接監視を繰り返し割り当て、ワーキングメモリタスクにおける知覚、注意、実行プロセスの統合を反映。クロスパラダイムに制限された運動クラスターと高い優先度を持つワーキングメモリ状態を明らかにした。
本論文では、レーザー貫通溶接における溶け込み状態、深さ、溶接シーム形態を高精度に予測する革新的なマルチタスク深層学習モデルを紹介する。CMOSカメラで捉えた溶融池画像と溶接パラメータを用い、畳み込みニューラルネットワークと状態空間モデルにより時空間特徴を抽出する。テストセットでは、溶け込み状態予測精度99.35%、深さ誤差1.79mm、断面再現精度95.65%を達成した。
研究者らは、航空機搭載LiDARと光学画像を使用して都市部の樹木地上バイオマスを推定する自己教師ありフレームワークを開発した。この手法は樹冠の描出とバイオマス推定において高い精度を達成し、手動アノテーションなしで都市の炭素ストックとその時間変化を明らかにした。
本論文では、長コンテキストのマルチ画像生成における一貫性とスケーラビリティを向上させるフレームワークLCGを提案。スパース関係的注意(SRA)とルーティング一貫性制約(RCC)を導入し、大規模合成データセットLCCDを構築。実験により、プロンプトアライメントとキャラクター一貫性でベースラインを上回ることを示した。
本研究は、画像処理と深層学習を組み合わせたハイブリッド手法を導入し、果物の鮮度を評価する。腐敗度を0(完全に新鮮)から100(完全に腐敗)で定量化する画像処理アルゴリズムを開発し、CNNで二値分類(新鮮/腐敗)を訓練。ロジスティック回帰で両方の結果を統合し、精度を向上。最終的に画像処理アルゴリズムがCNNなしで二値分類できるようにした。低計算リソースでリアルタイム性能を達成し、リンゴとオレンジのデータセットで90%以上の精度を実証。制限は、果物が白または透明の背景に孤立している必要があること。
DocArenaは、マルチモーダル大規模言語モデル(MLLM)を用いて生の文書を制御可能かつスケーラブルなトレーニング環境に変換する完全自動データキュレーションパイプラインです。人間によるアノテーションを必要とせず、推論を必要とするQAペアを生成し、16ドメイン・49言語にわたる8,336文書からなるDocArena-79Kデータセットを構築します。実験では、DocArenaでトレーニングされたエージェントが検索精度とQA品質の両方で最先端のパフォーマンスを達成することが示されました。
ほとんどのVLAモデルはリアクティブであり、現在の観測からのみ次の行動を予測するため、環境変化に弱い。本論文では、観測-行動-結果のトリプレットをコンテキストとして利用するReflective VLAを提案。分布シフト下で成功率が5.4ポイント向上し、行動結果が汎化の鍵であることを示した。
本論文は、量子化対応の線形パスを学習して低損失部分空間の中点を見つける新しいニューラルネットワーク量子化手法を提案し、ストレートスルー推定器や明示的な離散化を使用せずに量子化対応訓練と同等の性能を達成する。
本研究では、マルチモーダル大規模言語モデル(MLLM)のアシスティブAIタスクにおける性能を、通貨認識、シーンテキストの質問応答、多言語視覚コンテンツの読み取りを通じて評価しました。研究者らはNetraLinkシステムを開発し、ヘッドマウント型GoProで実世界の一人称視点データを収集し、ベンチマークを作成しました。結果は、現在のMLLMの視覚認識と言語インタラクションにおける強みと限界を明らかにしました。
ビジュアルストーリーテリングでは、ナラティブプロンプトに沿った画像シーケンスと、キャラクターの外観の一貫性が求められる。既存の訓練不要手法は構造化プロンプト(毎回完全なキャラクター説明を繰り返す)に依存しており、自然なストーリーテリングから乖離している。FreeStoryはエンティティに基づく特徴再利用により自由形式プロンプト下でのキャラクター一貫性を実現し、FreeStoryBenchベンチマークを導入。訓練不要手法で最先端の性能を達成した。
Wan-Streamerは、リアルタイムで低遅延な全二重音声・映像対話のために設計された、ネイティブストリーミングのエンドツーエンド対話基盤モデルです。単一のTransformer内で言語、音声、映像をシームレスにモデル化し、ブロック因果注意機構を使用してインクリメンタルストリーミングを実現します。モデル側の応答遅延は約200ミリ秒、総対話遅延は約550ミリ秒で、サブ秒の全二重通信をサポートします。
Chorus IIは、類似した画像から動画への生成リクエスト間でスパースな注意パターンを再利用することで、オンラインのマスク予測を回避し、オプションの特徴再利用とガイダンス強化により品質を維持しつつ2.16倍の高速化を実現するフレームワークである。
Yuvion VLは、コンテンツとAIの安全性に特化したマルチモーダル大規模言語モデルのファミリーです。安全性を本質的に敵対的かつマルチモーダルな問題と捉え、敵対的ロバスト性を中心にパイプライン全体を設計しています。データ構築では、敵対的認識型データ合成と多段階品質管理を統合した自動パイプラインを開発。訓練では、リスク概念のクロスモーダルアライメントのための継続事前訓練、本番環境向け安全タスクのための指示後訓練、複雑タスクでの解釈可能性向上のための推論後訓練の3段階を採用。さらに、モデル固有の混乱を掘り起こし、複数画像の対比グループを構築して細粒度の視覚意味要素を明示的に識別させる「混乱-対比微調整」フレームワークを導入。YVREベンチマークセットで多様な評価を実施。Yuvion VL-32Bは、同等規模のオープンソースモデルや最高のクローズドソース商用モデルを上回る安全性性能を達成し、一般能力も維持しています。
本論文では、超音波スペックル低減のためのノイズ認識型境界強調生成学習(NBGL)フレームワークを提案する。スペックル低減ブランチと境界強調ブランチで構成され、3Dラプラシアンフィルタと中央絶対偏差推定を用いたノイズ認識型相互作用重み生成(NIWG)モジュールにより、異なるノイズレベルに適応する。141の3D経膣超音波ボリュームでの評価において、NBGLは6つのノイズレベルで最新手法を上回る性能を示した。
生成AIの進歩により画像偽造が極めてリアルになり、信頼できる認証システムが求められている。既存のフォレンジック検出器は説明可能性に欠け、視覚言語モデル(VLM)は説明を提供できるが、フォレンジック痕跡を信頼性の高い検出に活用できない。本稿では、フォレンジック証拠抽出、構造化推論、人間が解釈可能な説明を統合する統一フレームワークであるフォレンジック知識グラフ(FKG)を提案する。FKG構造は、フォレンジック痕跡とその因果関係およびシーンコンテンツへのリンクをエンコードする。正確なFKGを生成するために、新しいフォレンジック認証ネットワークと、VLMを導いて忠実で根拠のある説明を生成する反復的コンテキスト精緻化戦略を導入する。また、50,000個のリアルな偽造画像と正解FKGを備えたデータセットFKG-50Kを公開する。実験により、FKGは検出、偽造識別と位置特定、フォレンジック正当化において、既存の検出器やVLMを上回ることが示された。
研究者らは、PromptKDのマルチ教師拡張であるTheProfessorを提案。ドメイン微調整教師とゼロショット教師のアンサンブルを用い、信頼度加重アンサンブルにより平均調和平均精度が87.52から89.28に向上。特にドメインシフトしたEuroSATで大きな改善。
REALMは、物理世界の視覚言語モデルに対する初の統一レッドチーミングベンチマークであり、12の攻撃手法、3つの防御、13のモデルを統合し、脆弱性の公平な比較を可能にします。主な発見として、テキストおよびタイポグラフィ注入攻撃が最も効果的であり、モデル規模だけではロバスト性が向上しないことが示されました。
HeRAと呼ばれる新しい手法は、個々の注意ヘッドレベルでマルチモーダル大規模言語モデルの表現を調整し、性能を向上させ、幻覚を減少させます。
視覚言語モデル(VLM)は否定表現に脆弱で、浅い共起や誤解を招くテキストに影響されやすい。HANCLIPは双曲幾何学と角度トリプレット目的関数を用いて埋め込み空間を再構築し、2万の画像-テキスト四つ組で学習することで否定ベンチマークを改善し、標準性能を維持する。
ABACUSは、物体カウント、群衆カウント、参照表現カウント、およびカウントに忠実な画像生成を、ベンチマーク固有の学習なしで処理する統一視覚言語モデルです。既存の3Bパラメータの統一ファウンデーションモデルを基に、3つの主要な革新を導入:物体マップを用いた密度認識適応ズームによる空間グラウンディング、GRPOによる境界認識カウントポリシーでクロップ境界エラーを除去、そしてサイクル一貫性GRPO戦略で理解ブランチが生成出力を自己批評し、外部アノテーションなしで理解と生成のギャップを閉じます。7つのベンチマークで最先端の結果を達成し、タスク固有の専門家モデルやより大きな汎用モデルを上回ります。
小物体検出において空間領域からスペクトル領域へのパラダイムシフトを提案。周波数誘導特徴表現フレームワーク(WDG、LGE、FDHeadの3つの軽量モジュール)により、YOLOv11の1/6のパラメータで優れた性能を達成。
最新の研究では、視覚言語モデル(VLM)の一貫性評価において、注意分布がデコーディングドリフトや構造トークンによるバイアスの影響を受けることが明らかになった。これに対処するため、プロンプト側の意味情報を活用し、注意のピーク分布を用いてアライメントを測定するPV-TAMが提案された。実験では、複数のデータセットで回答側ベースラインを上回る性能を示した。
現代のビデオ拡散モデルはスケーリングにより生成品質を向上させるが、推論コストが増大する。Solビデオ推論エンジンは、トレーニング不要のエージェント型高速化フレームワークであり、キャッシュ、スパースアテンション、トークンプルーニング、量子化、カーネル融合の5つの技術を組み合わせる。3つの異なる規模のビデオモデルで検証し、2倍以上のエンドツーエンド高速化を達成し、VBench品質をほぼ維持した。
本論文は、幾何情報を活用したコンピュータビジョンパイプラインを提案し、単一の自転車搭載カメラから追い越しイベントを自動検出する。315件の実世界イベントで検証し、再現率97.8%、誤検出0件を達成。システムは車両通過の平均2.44秒前に追い越し意図を識別し、84.1%が1.5秒の人間反応時間を超えた。横方向距離推定の誤差は13-14cmで、接近通過の識別に十分。
研究者は拡散モデルを用いたビデオの同時動作・位置編集のためのワンショットフレームワークTeleMorpherを提案する。この手法は主人公と背景を分離し、動作事前分布を用いたポーズワーピングと新しい評価指標を導入する。実験では、実世界のビデオとTaiChiデータセットで優れた性能を示した。
本論文は、多表現拡散モデルにおける非同期ノイズ除去スケジュールを学習する手法を提案する。スケジュール補正目的関数と凸で単調なパラメータ化を導入し、追加計算量1%未満で学習する。ImageNet 256x256で、200エポックでFID 1.05(800エポックのベースラインと同等)、600エポックでFID 1.02(10億パラメータモデルを上回る)。非誘導設定でも大幅な改善。