AI News HubLIVE
公開記事 294収集記事 330信頼度 75更新頻度 360 分
稼働状態 正常ソース種別 研究全文利用権限 全文利用可最終取り込み 2026-06-26ID arxiv-cs-cv状態 有効

Use abstract and metadata; check individual paper license before full text.

最新公開記事

ディープフェイクベンチマークは何を測定するのか?凍結自己教師あり表現を用いた監査

ビデオ、画像、オーディオのディープフェイクベンチマークを、凍結された汎用自己教師あり表現上の線形プローブで監査したところ、専用検出器の性能に近づくことがわかり、ベンチマークは鑑識的理解ではなく一般的なモダリティ理解を報酬としている可能性が示唆された。

  • ディープフェイク検出器はベンチマークでは高得点だが、実環境では頻繁に失敗する。
  • 凍結自己教師あり表現の線形プローブが専用検出器の性能に近づく。
サイト内本文

微分可能探索による視覚基盤モデルにおける層別プロンプト融合の発見

本論文では、視覚プロンプトチューニングにおいて画像トークンとプロンプトトークンの最適な融合方式を自動的に発見するための微分可能アーキテクチャ探索手法を提案する。学習可能なプロンプトとその融合方式を共同最適化し、アフィン変換とクロスアテンションという2つの新しい融合機構を導入する。34のデータセットでの実験により、ベースラインを一貫して上回る性能を示し、ハイブリッド融合がVision Transformerの層意味論をより効果的に活用できることを明らかにした。

  • プロンプト融合方式の選択を二段階最適化問題として定式化し、微分可能アーキテクチャ探索で解決。
  • アフィン変換とクロスアテンションの2つの新しい融合機構を提案し、探索空間を拡張。
サイト内本文

美を超えて:濁水中の情報損失を定量化する

研究者らは、極度の濁度下での水中シーンにおける情報損失を定量化するため、Turbid Underwater Baseline (TUB)データセットと新指標PCDを導入した。PCDはインスタンスセグメンテーション性能と強く相関し、既存の指標を上回る。

  • TUBデータセットは、極度の濁度下で撮影された1,320枚の画像と16,000以上の高信頼性セグメンテーションマスクを含む。
  • 提案されたPCD指標は位相一致性マップに基づき、コントラスト不変である。
サイト内本文

GeMoE:ゲーティングエントロピーはMoEベース大規模視覚言語モデルにおける不確実性適応型ルーティングに必要なすべて

GeMoEはトークンルーティングを情報符号化タスクとして捉え、最小記述長原理とゲーティングエントロピーに基づき適応的に専門家を選択し、99.5%の性能を維持しながら専門家活性化スパース性を36.5%向上させる。

  • 従来のMoEは静的Top-kルーティングを用い、入力に応じた専門家数の適応ができずリソースを浪費。
  • GeMoEはルーティングを最小記述長問題としてモデル化し、ゲーティングエントロピーでトークンの複雑さを評価。
サイト内本文

単一ソースの認知タスクノミーを超えて:fMRI転移学習によるマルチソースタスク関係

本研究は、fMRI認知タスクノミーを単一ソース転移からマルチソース転移へ拡張し、23のHuman Connectome Projectタスク状態にわたってブール整数計画法(BIP)を用いて予算制約下のタスク割り当てを分析した。1,127のタスク特化モデルと転移モデルを訓練。単一ソース転移は方向性とパラダイム構造を持ち、運動状態は運動パラダイム内でよく転移するが非運動目標へのサポートは限定的。マルチソース転移はソースセットの構成に依存し、ペアワイズタスクノミーだけでは多対一関係を完全に捉えられないことを示唆。BIPは予算制約下で0-backおよび2-backワーキングメモリ状態に直接監視を繰り返し割り当て、ワーキングメモリタスクにおける知覚、注意、実行プロセスの統合を反映。クロスパラダイムに制限された運動クラスターと高い優先度を持つワーキングメモリ状態を明らかにした。

  • fMRIタスクノミーを一対一転移から多対一転移と予算制約付きタスク依存関係へ拡張
  • ブール整数計画法を用いて23タスク状態間の予算制約下タスク割り当てを分析
サイト内本文

レーザー溶接における溶け込み深さと形態を予測するマルチタスク時空間ディープニューラルネットワーク

本論文では、レーザー貫通溶接における溶け込み状態、深さ、溶接シーム形態を高精度に予測する革新的なマルチタスク深層学習モデルを紹介する。CMOSカメラで捉えた溶融池画像と溶接パラメータを用い、畳み込みニューラルネットワークと状態空間モデルにより時空間特徴を抽出する。テストセットでは、溶け込み状態予測精度99.35%、深さ誤差1.79mm、断面再現精度95.65%を達成した。

  • 時空間特徴と溶接パラメータを統合し、溶け込み状態・深さ・形態を予測するマルチタスク深層学習モデル。
  • CMOSカメラで溶融池画像を取得し、CNNと状態空間モデルで時空間情報を処理。
サイト内本文

航空機LiDARと光学観測による都市環境での自己教師あり木レベルバイオマス推定

研究者らは、航空機搭載LiDARと光学画像を使用して都市部の樹木地上バイオマスを推定する自己教師ありフレームワークを開発した。この手法は樹冠の描出とバイオマス推定において高い精度を達成し、手動アノテーションなしで都市の炭素ストックとその時間変化を明らかにした。

  • 落葉期の航空機LiDARと近赤外オルソフォトを使用し、樹冠レベルでバイオマスを推定。
  • 疑似ラベルを用いた二重ストリームクロスアテンションネットワークが樹木セグメンテーションでDiceスコア0.84を達成。
サイト内本文

LCG: スパース関係的注意を用いた長コンテキスト一貫画像生成

本論文では、長コンテキストのマルチ画像生成における一貫性とスケーラビリティを向上させるフレームワークLCGを提案。スパース関係的注意(SRA)とルーティング一貫性制約(RCC)を導入し、大規模合成データセットLCCDを構築。実験により、プロンプトアライメントとキャラクター一貫性でベースラインを上回ることを示した。

  • LCGはスパース関係的注意(SRA)を用いて、拡張された視覚コンテキスト全体でコア特徴に選択的に注目し、意味情報とレイアウト情報の伝播を計算効率的に実現。
  • ルーティング一貫性制約(RCC)は、アイデンティティ認識マスクを利用して構造パターンを整列させ、複雑なマルチキャラクターシーンでの外観ドリフトを軽減。
サイト内本文

ハイブリッド機械学習と画像処理アプローチによる果物品質の予測

本研究は、画像処理と深層学習を組み合わせたハイブリッド手法を導入し、果物の鮮度を評価する。腐敗度を0(完全に新鮮)から100(完全に腐敗)で定量化する画像処理アルゴリズムを開発し、CNNで二値分類(新鮮/腐敗)を訓練。ロジスティック回帰で両方の結果を統合し、精度を向上。最終的に画像処理アルゴリズムがCNNなしで二値分類できるようにした。低計算リソースでリアルタイム性能を達成し、リンゴとオレンジのデータセットで90%以上の精度を実証。制限は、果物が白または透明の背景に孤立している必要があること。

  • 画像処理アルゴリズムが腐敗度を0-100でスコア化。
  • CNNが新鮮/腐敗の二値分類を実行。
サイト内本文

DocArena:生の文書を文書検索エージェントのための制御可能なトレーニング環境に変換する

DocArenaは、マルチモーダル大規模言語モデル(MLLM)を用いて生の文書を制御可能かつスケーラブルなトレーニング環境に変換する完全自動データキュレーションパイプラインです。人間によるアノテーションを必要とせず、推論を必要とするQAペアを生成し、16ドメイン・49言語にわたる8,336文書からなるDocArena-79Kデータセットを構築します。実験では、DocArenaでトレーニングされたエージェントが検索精度とQA品質の両方で最先端のパフォーマンスを達成することが示されました。

  • DocArenaはMLLMベースの視覚認識により生文書から自動的にトレーニング環境を構築し、人間のアノテーションは不要。
  • DocArena-79Kデータセットは16ドメイン・49言語・8,336文書をカバー。
サイト内本文

Reflective VLA: コンテキスト内の行動結果がVLAの汎化を促進する

ほとんどのVLAモデルはリアクティブであり、現在の観測からのみ次の行動を予測するため、環境変化に弱い。本論文では、観測-行動-結果のトリプレットをコンテキストとして利用するReflective VLAを提案。分布シフト下で成功率が5.4ポイント向上し、行動結果が汎化の鍵であることを示した。

  • 観測-行動-結果のトリプレットをコンテキストとするReflective VLAを提案
  • VLMによる共有注意機構で全モダリティを処理
サイト内本文

低損失部分空間の学習によるニューラルネットワーク量子化

本論文は、量子化対応の線形パスを学習して低損失部分空間の中点を見つける新しいニューラルネットワーク量子化手法を提案し、ストレートスルー推定器や明示的な離散化を使用せずに量子化対応訓練と同等の性能を達成する。

  • 量子化により離散制約がパラメータを最適解から遠ざけ、性能が低下する。
  • 低損失の完全精度解は連結された低損失部分空間に属する。
サイト内本文

私たちはもうそこにいるのか?アシスティブAIアプリケーションにおけるMLLMの能力を探る

本研究では、マルチモーダル大規模言語モデル(MLLM)のアシスティブAIタスクにおける性能を、通貨認識、シーンテキストの質問応答、多言語視覚コンテンツの読み取りを通じて評価しました。研究者らはNetraLinkシステムを開発し、ヘッドマウント型GoProで実世界の一人称視点データを収集し、ベンチマークを作成しました。結果は、現在のMLLMの視覚認識と言語インタラクションにおける強みと限界を明らかにしました。

  • マルチモーダル大規模言語モデルはアシスティブAIに有望だが、複雑なシナリオでは限界がある
  • NetraLinkシステムはヘッドマウント型GoProを使用して実世界の一人称データを収集
サイト内本文

FreeStory: 訓練不要で自由形式のビジュアルストーリーテリングにおけるキャラクター一貫性を実現

ビジュアルストーリーテリングでは、ナラティブプロンプトに沿った画像シーケンスと、キャラクターの外観の一貫性が求められる。既存の訓練不要手法は構造化プロンプト(毎回完全なキャラクター説明を繰り返す)に依存しており、自然なストーリーテリングから乖離している。FreeStoryはエンティティに基づく特徴再利用により自由形式プロンプト下でのキャラクター一貫性を実現し、FreeStoryBenchベンチマークを導入。訓練不要手法で最先端の性能を達成した。

  • FreeStoryは訓練不要で、エンティティに基づく特徴再利用により自由形式プロンプトでキャラクター一貫性を実現。
  • FreeStoryBenchベンチマークを導入、単一および複数キャラクターのストーリーに対応。
サイト内本文

Wan-Streamer v0.1: エンドツーエンドのリアルタイム対話基盤モデル

Wan-Streamerは、リアルタイムで低遅延な全二重音声・映像対話のために設計された、ネイティブストリーミングのエンドツーエンド対話基盤モデルです。単一のTransformer内で言語、音声、映像をシームレスにモデル化し、ブロック因果注意機構を使用してインクリメンタルストリーミングを実現します。モデル側の応答遅延は約200ミリ秒、総対話遅延は約550ミリ秒で、サブ秒の全二重通信をサポートします。

  • 単一のTransformerが言語、音声、映像の入出力を統一し、エンドツーエンドの対話を実現。
  • ブロック因果注意機構と低遅延マルチモーダルトークンスケジューリングにより、25fpsで160ミリ秒のストリーミングユニットを可能に。
サイト内本文

Chorus II: クロスリクエスト・スパース性再利用による効率的な画像から動画への生成

Chorus IIは、類似した画像から動画への生成リクエスト間でスパースな注意パターンを再利用することで、オンラインのマスク予測を回避し、オプションの特徴再利用とガイダンス強化により品質を維持しつつ2.16倍の高速化を実現するフレームワークである。

  • 画像から動画生成の拡散モデルの計算コストを、リクエスト間のスパース注意パターンの再利用で削減。
  • 過去の高品質スパースマスクを共有再利用し、リクエストごとの予測を不要に。
サイト内本文

Yuvion VL:敵対的コンテンツとAI安全性のためのマルチモーダル基盤モデル

Yuvion VLは、コンテンツとAIの安全性に特化したマルチモーダル大規模言語モデルのファミリーです。安全性を本質的に敵対的かつマルチモーダルな問題と捉え、敵対的ロバスト性を中心にパイプライン全体を設計しています。データ構築では、敵対的認識型データ合成と多段階品質管理を統合した自動パイプラインを開発。訓練では、リスク概念のクロスモーダルアライメントのための継続事前訓練、本番環境向け安全タスクのための指示後訓練、複雑タスクでの解釈可能性向上のための推論後訓練の3段階を採用。さらに、モデル固有の混乱を掘り起こし、複数画像の対比グループを構築して細粒度の視覚意味要素を明示的に識別させる「混乱-対比微調整」フレームワークを導入。YVREベンチマークセットで多様な評価を実施。Yuvion VL-32Bは、同等規模のオープンソースモデルや最高のクローズドソース商用モデルを上回る安全性性能を達成し、一般能力も維持しています。

  • Yuvion VLは、コンテンツおよびAI安全性のために特化されたマルチモーダル大規模言語モデル。
  • 継続事前訓練、指示後訓練、推論後訓練、および「混乱-対比微調整」からなる訓練パイプライン。
サイト内本文

ノイズを考慮した境界強調生成学習による超音波スペックル低減

本論文では、超音波スペックル低減のためのノイズ認識型境界強調生成学習(NBGL)フレームワークを提案する。スペックル低減ブランチと境界強調ブランチで構成され、3Dラプラシアンフィルタと中央絶対偏差推定を用いたノイズ認識型相互作用重み生成(NIWG)モジュールにより、異なるノイズレベルに適応する。141の3D経膣超音波ボリュームでの評価において、NBGLは6つのノイズレベルで最新手法を上回る性能を示した。

  • NBGLは生成学習と境界強調を組み合わせ、スペックルを抑制しつつ解剖学的境界を保存する。
  • NIWGモジュールが3Dラプラシアンフィルタでノイズレベルを推定し、適応的な重みを生成する。
サイト内本文

フォレンジック知識グラフを用いた信頼できる画像認証

生成AIの進歩により画像偽造が極めてリアルになり、信頼できる認証システムが求められている。既存のフォレンジック検出器は説明可能性に欠け、視覚言語モデル(VLM)は説明を提供できるが、フォレンジック痕跡を信頼性の高い検出に活用できない。本稿では、フォレンジック証拠抽出、構造化推論、人間が解釈可能な説明を統合する統一フレームワークであるフォレンジック知識グラフ(FKG)を提案する。FKG構造は、フォレンジック痕跡とその因果関係およびシーンコンテンツへのリンクをエンコードする。正確なFKGを生成するために、新しいフォレンジック認証ネットワークと、VLMを導いて忠実で根拠のある説明を生成する反復的コンテキスト精緻化戦略を導入する。また、50,000個のリアルな偽造画像と正解FKGを備えたデータセットFKG-50Kを公開する。実験により、FKGは検出、偽造識別と位置特定、フォレンジック正当化において、既存の検出器やVLMを上回ることが示された。

  • フォレンジック証拠抽出、構造化推論、解釈可能な説明を統合するフォレンジック知識グラフ(FKG)を提案。
  • 正確なFKGを生成するための新しいフォレンジック認証ネットワークと反復的コンテキスト精緻化を導入。
サイト内本文

The Professor: マルチ教師無教師プロンプト蒸留による視覚言語モデル

研究者らは、PromptKDのマルチ教師拡張であるTheProfessorを提案。ドメイン微調整教師とゼロショット教師のアンサンブルを用い、信頼度加重アンサンブルにより平均調和平均精度が87.52から89.28に向上。特にドメインシフトしたEuroSATで大きな改善。

  • TheProfessorはPromptKDを拡張し、ドメイン微調整されたPromptSRC ViT-L/14とゼロショットEVA-CLIP-L/14の2教師アンサンブルを使用。
  • 信頼度加重アンサンブルにより4データセットの平均HMが87.52から89.28に向上。
サイト内本文

REALM: 物理世界VLMのための統一レッドチーミングベンチマーク

REALMは、物理世界の視覚言語モデルに対する初の統一レッドチーミングベンチマークであり、12の攻撃手法、3つの防御、13のモデルを統合し、脆弱性の公平な比較を可能にします。主な発見として、テキストおよびタイポグラフィ注入攻撃が最も効果的であり、モデル規模だけではロバスト性が向上しないことが示されました。

  • REALMは物理世界VLMのための初の統一レッドチーミングベンチマークである。
  • ブラックボックス脅威モデルの下で12の攻撃手法、3つの防御、13のモデルを統合。
サイト内本文

注意ヘッドに注目:マルチモーダルLLMのトポロジカル表現アラインメント

HeRAと呼ばれる新しい手法は、個々の注意ヘッドレベルでマルチモーダル大規模言語モデルの表現を調整し、性能を向上させ、幻覚を減少させます。

  • HeRAは個々の注意ヘッドレベルでクロスモーダル表現を調整する。
  • 最も調整されていないヘッドを調整することで最大の性能向上が得られる。
サイト内本文

HANCLIP:双曲角度否定視覚言語モデルのファミリー

視覚言語モデル(VLM)は否定表現に脆弱で、浅い共起や誤解を招くテキストに影響されやすい。HANCLIPは双曲幾何学と角度トリプレット目的関数を用いて埋め込み空間を再構築し、2万の画像-テキスト四つ組で学習することで否定ベンチマークを改善し、標準性能を維持する。

  • VLMは否定に対して脆弱であり、浅い単語共起や誤解を与えるテキスト手がかりに依存する。
  • HANCLIPは双曲公式と角度トリプレット目的関数を用いて、「画像でないもの」を明示的に符号化する。
サイト内本文

ABACUS:統一ファウンデーションモデルを適応し、画像カウント理解と生成を橋渡し

ABACUSは、物体カウント、群衆カウント、参照表現カウント、およびカウントに忠実な画像生成を、ベンチマーク固有の学習なしで処理する統一視覚言語モデルです。既存の3Bパラメータの統一ファウンデーションモデルを基に、3つの主要な革新を導入:物体マップを用いた密度認識適応ズームによる空間グラウンディング、GRPOによる境界認識カウントポリシーでクロップ境界エラーを除去、そしてサイクル一貫性GRPO戦略で理解ブランチが生成出力を自己批評し、外部アノテーションなしで理解と生成のギャップを閉じます。7つのベンチマークで最先端の結果を達成し、タスク固有の専門家モデルやより大きな汎用モデルを上回ります。

  • ABACUSは統一視覚言語モデルで、複数のカウントタスクとカウント忠実な画像生成をベンチマーク固有の学習なしで行う。
  • 3Bパラメータの基礎モデルに、密度認識適応ズーム、境界認識GRPOポリシー、サイクル一貫性GRPO戦略を組み込む。
サイト内本文

空間からスペクトルへ:小物体検出のための効率的な周波数誘導特徴表現学習器

小物体検出において空間領域からスペクトル領域へのパラダイムシフトを提案。周波数誘導特徴表現フレームワーク(WDG、LGE、FDHeadの3つの軽量モジュール)により、YOLOv11の1/6のパラメータで優れた性能を達成。

  • 小物体検出は空間領域検出器が高周波詳細を破棄する問題に直面
  • 空間からスペクトルへのパラダイムシフトと周波数誘導フレームワークを提案
サイト内本文

聞くことでVLMの視界がクリアになる

最新の研究では、視覚言語モデル(VLM)の一貫性評価において、注意分布がデコーディングドリフトや構造トークンによるバイアスの影響を受けることが明らかになった。これに対処するため、プロンプト側の意味情報を活用し、注意のピーク分布を用いてアライメントを測定するPV-TAMが提案された。実験では、複数のデータセットで回答側ベースラインを上回る性能を示した。

  • デコーディングドリフトと構造トークンがVLMの注意分布のずれを引き起こす
  • PV-TAMはプロンプト側の意味と注意ピーク分布を用いてアライメントを評価し、モダリティ境界マーカーをフィルタリングする
サイト内本文

Solビデオ推論エンジン:効率的なビデオ生成のためのエージェントネイティブフルスタック高速化フレームワーク

現代のビデオ拡散モデルはスケーリングにより生成品質を向上させるが、推論コストが増大する。Solビデオ推論エンジンは、トレーニング不要のエージェント型高速化フレームワークであり、キャッシュ、スパースアテンション、トークンプルーニング、量子化、カーネル融合の5つの技術を組み合わせる。3つの異なる規模のビデオモデルで検証し、2倍以上のエンドツーエンド高速化を達成し、VBench品質をほぼ維持した。

  • ビデオ拡散モデルの推論高速化は、モデル、ハードウェア、構成ごとに最適な戦略が異なるという課題がある。
  • Solエンジンはエージェントアーキテクチャを採用し、5種類の高速化技術を並列最適化し、統合器で全体スタックを構成する。
サイト内本文

幾何情報を活用したコンピュータビジョン手法:自転車から追い越し車両の検出・解析

本論文は、幾何情報を活用したコンピュータビジョンパイプラインを提案し、単一の自転車搭載カメラから追い越しイベントを自動検出する。315件の実世界イベントで検証し、再現率97.8%、誤検出0件を達成。システムは車両通過の平均2.44秒前に追い越し意図を識別し、84.1%が1.5秒の人間反応時間を超えた。横方向距離推定の誤差は13-14cmで、接近通過の識別に十分。

  • 幾何情報を活用したコンピュータビジョンパイプラインを提案
  • RT-DETRとByteTrackを用い、3段階の幾何検証モジュールを実装
サイト内本文

TeleMorpher: ロバストな同時動作・位置編集を目指して

研究者は拡散モデルを用いたビデオの同時動作・位置編集のためのワンショットフレームワークTeleMorpherを提案する。この手法は主人公と背景を分離し、動作事前分布を用いたポーズワーピングと新しい評価指標を導入する。実験では、実世界のビデオとTaiChiデータセットで優れた性能を示した。

  • TeleMorpherは同時動作・位置編集を実現する初のワンショットフレームワーク。
  • 動作事前分布と真値動作を活用し、訓練不要のポーズワーピングで編集。
サイト内本文

いつノイズ除去するかを学習する:潜拡散の非同期スケジュール最適化

本論文は、多表現拡散モデルにおける非同期ノイズ除去スケジュールを学習する手法を提案する。スケジュール補正目的関数と凸で単調なパラメータ化を導入し、追加計算量1%未満で学習する。ImageNet 256x256で、200エポックでFID 1.05(800エポックのベースラインと同等)、600エポックでFID 1.02(10億パラメータモデルを上回る)。非誘導設定でも大幅な改善。

  • 多表現拡散モデルの非同期スケジュール学習を提案
  • スケジュール補正目的と凸単調パラメータ化
サイト内本文

全ソース