arXiv Computer Vision AI 新聞來源

公開文章 294採集文章 330可信度 75刷新頻率 360 分鐘

健康狀態健康來源類型研究原文權限 允許原文最近入庫 2026-06-26ID arxiv-cs-cv運行狀態 已啟用

Use abstract and metadata; check individual paper license before full text.

最新公開文章

深度偽造基準測試到底衡量了什麼？一項使用凍結自監督表示的審計

2026-06-26 12:00 UTC+8

一項新的研究通過簡單的線性探針對視頻、圖像和音頻的深度偽造基準進行審計，發現通用自監督表示即可接近專用檢測器的性能，表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。

深度偽造檢測器在基準測試中表現良好，但在實際場景中頻繁失效。
研究發現，使用凍結自監督表示的線性探針能接近專用檢測器的性能。

通過可微搜索在視覺基礎模型中實現層特定提示融合發現

2026-06-26 12:00 UTC+8

本文提出一種基於可微架構搜索的方法，用於自動發現視覺提示微調中圖像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合優化，並引入仿射變換和交叉注意力兩種新融合機制。在34個數據集上的實驗表明，該方法在準確率、延遲和參數數量之間實現了良好的權衡，並揭示了混合融合方式能更有效地利用Transformer的層語義。

將提示融合方案選擇建模為雙層優化問題，並通過可微架構搜索求解。
提出了仿射變換和交叉注意力兩種新融合機制，豐富了搜索空間。

超越美學：量化渾濁場景中的信息損失

2026-06-26 12:00 UTC+8

研究人員引入了渾濁水下基線（TUB）數據集和新指標PCD，以量化極端渾濁度下水下場景的信息損失。PCD與實例分割性能強相關，優於常用指標。

TUB數據集包含1320張極端渾濁度下的圖像和超過16000個高置信度分割掩碼。
提出的PCD指標基於相位一致性圖，具有對比度不變性。

GeMoE：門控熵是MoE大視覺語言模型中不確定性感知自適應路由的全部所需

2026-06-26 12:00 UTC+8

GeMoE通過將令牌路由視為信息編碼任務，基於最小描述長度原則和門控熵實現自適應專家選擇，在保持99.5%性能的同時將專家激活稀疏性提升36.5%。

傳統MoE使用靜態Top-k路由，無法動態調整專家數量，造成資源浪費。
GeMoE將路由建模為最小描述長度問題，利用門控熵衡量令牌複雜度。

本研究將功能磁共振成像（fMRI）認知任務圖譜從單源遷移擴展到多源遷移，覆蓋人類連接組計劃23個任務狀態，並採用布爾整數規劃（BIP）分析預算約束下的任務分配。訓練了1127個任務特定和遷移模型。單源遷移具有方向性和範式結構：運動狀態在運動範式內遷移良好，但對非運動目標支持有限。多源遷移依賴於源集組成，表明成對任務圖譜無法完全捕捉多對一關係。BIP反覆將直接監督分配給0-back和2-back工作記憶狀態，儘管它們並非最強的單個源，這可能反映了工作記憶任務中感知、注意和執行過程的整合。揭示了跨範式受限的運動簇和工作記憶狀態的高優先級。

將fMRI任務圖譜從一對一遷移擴展到多對一遷移與預算約束任務依賴
使用布爾整數規劃分析23個任務狀態中的預算約束任務分配

用於預測激光焊接穿透深度和形態的多任務時空深度神經網絡

2026-06-26 12:00 UTC+8

本文提出了一種創新的多任務深度學習模型，能夠高精度預測激光穿透焊接中的穿透狀態、深度和焊縫形態。該模型基於CMOS相機捕獲的熔池圖像，結合焊接參數，利用卷積神經網絡和狀態空間模型提取時空特徵。在測試集上，穿透狀態預測精度達99.35%，穿透深度誤差為1.79毫米，焊縫橫截面重建精度為95.65%。

提出多任務深度學習模型，集成時空特徵和焊接參數，預測穿透狀態、深度和焊縫形態。
使用CMOS相機捕獲熔池圖像，結合卷積神經網絡和狀態空間模型處理時空信息。

城市環境中利用機載LiDAR和光學觀測的自監督樹木生物量估算

2026-06-26 12:00 UTC+8

研究人員開發了一種自監督框架，利用機載LiDAR和光學影像估算城市樹木的地上生物量。該方法實現了高精度的樹冠分割和生物量估算，揭示了城市碳儲量及其隨時間的變化，無需手動標註。

該框架使用落葉期機載LiDAR和近紅外正射影像，在樹冠級別估算生物量。
雙流交叉注意力網絡結合偽標籤，樹冠分割Dice得分達到0.84。

LCG：基於稀疏關係注意力的長上下文一致圖像生成

2026-06-26 12:00 UTC+8

本文提出LCG框架，通過稀疏關係注意力（SRA）和路由一致性約束（RCC）實現長上下文多圖像生成中的一致性和可擴展性，並構建了大規模合成數據集LCCD。實驗表明，LCG在提示對齊和角色一致性方面優於基線方法。

LCG框架利用稀疏關係注意力（SRA）選擇性關注核心特徵，確保語義和佈局信息的高效傳播。
路由一致性約束（RCC）通過身份感知掩碼對齊結構模式，減少複雜多角色場景中的外觀漂移。

基於混合機器學習和圖像處理的水果質量預測方法

2026-06-26 12:00 UTC+8

本研究提出一種結合圖像處理與深度學習的混合方法評估水果新鮮度。開發了量化腐敗程度的圖像處理算法（0-100分），並訓練CNN進行二元分類（新鮮/腐爛）。通過邏輯迴歸融合兩者結果，最終使圖像處理算法能直接進行二元分類，無需CNN。該方法計算資源需求低，在蘋果和橙子數據集上實現實時檢測，準確率超90%。主要限制是水果需在白色或透明背景上隔離。

圖像處理算法量化腐敗程度（0-100）。
CNN進行新鮮/腐爛二元分類。

DocArena：將原始文檔轉化為可控的訓練環境，用於文檔搜索智能體

2026-06-26 12:00 UTC+8

DocArena是一個全自動數據整理流水線，利用多模態大語言模型（MLLM）將原始文檔轉化為可控、可擴展的訓練環境，用於訓練文檔搜索智能體。它無需人工標註，可生成推理密集的問答對，並構建包含8,336篇文檔、覆蓋16個領域和49種語言的DocArena-79K數據集。實驗表明，基於DocArena訓練的智能體在檢索準確率和問答質量上均達到最優。

DocArena通過MLLM視覺感知自動結構化文檔並構建訓練環境，無需人工標註。
創建的DocArena-79K數據集涵蓋16個領域和49種語言，包含8,336篇文檔的問答對。

反射式VLA：利用上下文動作後果實現VLA的泛化

2026-06-25 12:00 UTC+8

大多數視覺-語言-動作（VLA）模型是反應式的，僅根據當前指令和觀測預測下一步動作，難以應對部署時的環境變化。本文提出反射式VLA，通過上下文中的觀測-動作-後果三元組來調節決策，從而暴露部署特定的動作-效果映射。在LIBERO等基準測試中，反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點，消融實驗表明動作後果而非額外上下文長度是關鍵。

提出反射式VLA模型，利用觀測-動作-後果三元組作為上下文來改善泛化
通過共享注意力的VLM處理所有模態，動作專家直接推理歷史三元組

通過學習低損失子空間進行神經網絡量化

2026-06-25 12:00 UTC+8

本文提出一種新的神經網絡量化方法，通過學習量化感知的線性路徑來尋找低損失子空間的中點，從而在不使用直通估計器或顯式離散化的情況下實現與量化感知訓練相當的性能。

量化導致性能下降是因為離散約束使參數偏離最優解
低損失全精度解屬於連通的低損失子空間

我們到了嗎？探索多模態大語言模型在輔助AI應用中的能力

2026-06-25 12:00 UTC+8

本研究評估了多模態大語言模型（MLLM）在輔助AI任務中的表現，包括貨幣識別、場景文本問答和多語言視覺內容閲讀。研究者構建了NetraLink系統，使用頭戴式GoPro採集真實世界第一人稱數據，並創建了相應基準測試。結果揭示了當前MLLM在視覺感知和語言交互方面的優勢與侷限。

多模態大語言模型在輔助AI任務中展現出潛力，但在複雜場景下仍有侷限
NetraLink系統利用頭戴式GoPro採集真實世界第一人稱數據

FreeStory：無需訓練的視覺故事生成中角色一致性保持方法

2026-06-25 12:00 UTC+8

視覺故事生成要求圖像序列與敍述提示對齊且角色外觀一致。現有免訓練方法依賴結構化提示（每句重複完整描述），不符合自然敍述。FreeStory通過實體引導的特徵複用，在自由形式提示下保持角色一致性，並引入FreeStoryBench基準，在單/多角色故事中均達到領先水平。

FreeStory無需訓練，通過實體引導的特徵複用實現自由形式提示下的角色一致性。
引入FreeStoryBench基準，包含單角色和多角色故事場景。

Wan-Streamer v0.1：端到端實時交互基礎模型

2026-06-25 12:00 UTC+8

Wan-Streamer 是一個原生流式、端到端的交互基礎模型，專為低延遲、全雙工信視聽交互設計。它在一個Transformer中統一建模語言、音頻和視頻的輸入輸出，使用塊因果注意力實現增量流式，無需依賴外部模塊。模型側響應延遲約200毫秒，總交互延遲約550毫秒，支持亞秒級雙工信視聽通信。

Wan-Streamer 採用單一Transformer處理語言、音頻和視頻的輸入與輸出，實現端到端交互。
通過塊因果注意力和低延遲多模態令牌調度，支持160毫秒（25fps）的流式單元。

Chorus II: 跨請求稀疏性重用實現高效圖像到視頻生成

2026-06-25 12:00 UTC+8

Chorus II 提出一種跨請求稀疏性重用框架，通過複用歷史請求的稀疏注意力掩碼來避免在線掩碼預測，可選的特徵重用和引導增強進一步保持生成質量，實現2.16倍加速。

針對圖像到視頻生成的擴散模型計算成本高的問題，提出跨請求稀疏性重用。
利用相似請求間一致的稀疏注意力模式，複用歷史稀疏掩碼作為先驗。

Yuvion VL：一種用於對抗性內容和AI安全的多模態基礎模型

2026-06-25 12:00 UTC+8

Yuvion VL是一系列專為內容和AI安全設計的多模態大語言模型，通過將安全性視為對抗性和多模態問題，構建了圍繞對抗魯棒性的完整管道。其數據構建採用自動化對抗感知合成與多階段質量控制；訓練採用三階段流程，包括風險概念跨模態對齊的繼續預訓練、生產級安全任務的指令後訓練以及增強可解釋性的推理後訓練。創新性地引入困惑-對比微調框架，通過挖掘模型特定困惑並構建多圖像對比組，強制區分細粒度視覺語義元素。同時推出YVRE基準集，包含多樣化的安全評估。實驗表明Yuvion VL-32B在安全性能上領先於同類開源和閉源模型，同時保持通用能力。

Yuvion VL是多模態大語言模型系列，專為內容和AI安全構建，具有指令調優和推理導向變體。
採用三階段訓練：繼續預訓練、指令後訓練和推理後訓練，以及創新的困惑-對比微調方法。

噪聲感知邊界增強的生成學習用於超聲散斑抑制

2026-06-25 12:00 UTC+8

本文提出了一種噪聲感知邊界增強生成學習（NBGL）框架，用於超聲散斑抑制。該框架由散斑抑制分支和邊界增強分支組成，並引入噪聲感知交互權重生成（NIWG）模塊，通過3D拉普拉斯濾波和中位數絕對偏差估計自適應調節噪聲水平。在141個3D經陰道超聲數據集上的實驗表明，NBGL在六個噪聲級別上均優於現有方法。

NBGL框架結合生成學習與邊界增強，同時抑制散斑並保留解剖邊界。
NIWG模塊通過3D拉普拉斯濾波估計噪聲水平，生成自適應交互權重。

使用取證知識圖譜的可信圖像認證

2026-06-24 12:00 UTC+8

隨着生成式AI的發展，圖像偽造變得高度逼真，亟需可信的認證系統。現有的取證檢測器缺乏可解釋性，而視覺語言模型（VLM）雖能提供解釋，但無法利用取證痕跡進行可靠檢測。本文提出取證知識圖譜（FKG），將取證證據提取、結構化推理和可解釋解釋統一起來。FKG結構編碼取證痕跡及其因果依賴關係，並鏈接到場景內容。為生成準確的FKG，我們引入了一種新的取證認證網絡和迭代上下文細化策略，引導VLM生成忠實、有依據的解釋。我們還發布了FKG-50K數據集，包含50,000個具有真實FKG的逼真偽造圖像。實驗表明，FKG在檢測、偽造識別與定位以及取證論證方面均優於現有檢測器和VLM。

提出取證知識圖譜（FKG），整合取證證據提取、結構化推理和可解釋解釋。
引入新的取證認證網絡和迭代上下文細化策略，以生成準確的FKG。

教授：多教師無監督提示蒸餾用於視覺語言模型

2026-06-24 12:00 UTC+8

研究人員提出TheProfessor，這是PromptKD的多教師擴展，用於蒸餾視覺語言模型。使用領域微調教師和零樣本教師的集成，基於置信度的集成方法將平均調和準確率從87.52提升至89.28，在域遷移數據集如EuroSAT上提升顯著。

TheProfessor擴展了PromptKD，採用雙教師集成：領域微調的PromptSRC ViT-L/14和零樣本的EVA-CLIP-L/14。
基於置信度的集成在四個數據集上實現了89.28的平均HM，高於87.52。

REALM：面向物理世界視覺語言模型的統一紅隊測試基準

2026-06-24 12:00 UTC+8

REALM 提供了首個針對物理世界視覺語言模型的統一紅隊測試基準，整合了12種攻擊方法、3種防禦措施和13個模型，以公平比較漏洞。關鍵發現包括文本和排版注入攻擊最有效，且模型規模本身不提升魯棒性。

REALM 是首個物理世界視覺語言模型的紅隊測試統一基準。
在黑盒威脅模型下整合了12種攻擊方法、3種防禦和13個模型。

關注注意力頭：多模態大語言模型的拓撲表示對齊

2026-06-24 12:00 UTC+8

一種名為HeRA的新方法在個體注意力頭級別上對齊多模態大語言模型的表示，提升了性能並減少了幻覺。

HeRA在個體注意力頭級別進行跨模態表示對齊。
對齊最不對齊的頭能帶來最大的性能提升。

HANCLIP：一族雙曲角否定視覺語言模型

2026-06-24 12:00 UTC+8

視覺語言模型（VLM）在面對否定表述時表現脆弱，易受誤導性文本干擾。HANCLIP通過雙曲幾何和角度三元組目標，在保持預訓練表示全局結構的同時增強否定敏感性，僅用2萬圖像-文本四元組訓練，即可提升NegBench基準性能。

VLM對否定表述的脆弱性源於淺層詞共現和誤導性文本干擾。
HANCLIP採用雙曲公式和角度三元組目標，顯式編碼“圖像不是什麼”。

ABACUS：適配統一基礎模型以橋接圖像計數理解與生成

2026-06-24 12:00 UTC+8

ABACUS是一個統一的視覺語言模型，能夠在無基準特定訓練的情況下處理物體計數、人羣計數、指代表達計數以及計數忠實圖像生成。它基於3B參數統一基礎模型構建，通過三項關鍵創新適配於物體定位任務：密度感知自適應縮放與目標圖用於空間定位；基於GRPO的邊界感知計數策略消除裁剪邊界誤差；以及循環一致GRPO策略，理解分支自我批評生成輸出，無需外部標註即可彌合理解與生成之間的差距。ABACUS在七個基準上均達到最先進水平，超越了任務特定專家和更大的通用模型。

ABACUS是一個統一的視覺語言模型，支持多種計數任務和計數忠實圖像生成，無需特定訓練。
模型基於3B參數基礎模型，引入密度感知自適應縮放、邊界感知GRPO策略和循環一致GRPO策略三項創新。

從空間到頻譜：一種高效的頻率引導特徵表示學習器用於小目標檢測

2026-06-24 12:00 UTC+8

提出了一種從空間域轉向頻譜域的小目標檢測新範式，通過頻率引導特徵表示框架（包括WDG、LGE、FDHead三個輕量模塊）在多個基準上以僅1/6的參數超越YOLOv11。

小目標檢測受限於空間域檢測器丟棄高頻細節的問題
提出從空間到頻譜的範式轉換，引入頻率引導特徵表示框架

傾聽使視覺語言模型視野更清晰

2026-06-24 12:00 UTC+8

最新研究指出，當前的視覺語言模型（VLM）在評估視覺-語言一致性時存在注意力偏移問題，即高注意力區域與語義標記不匹配。為解決這一問題，研究人員提出了基於提示側語義的PV-TAM方法，通過過濾模態邊界標記的偏差並利用注意力峯值分佈來評估對齊程度，實驗表明該方法在多個數據集上顯著提升了定位指標。

發現VLM中的解碼漂移和結構標記導致注意力分佈偏移，影響視覺-語言一致性評估
提出PV-TAM（提示-視覺標記激活圖），利用提示側語義和注意力峯值分佈進行更準確的評估

Sol視頻推理引擎：面向高效視頻生成的智能體原生全棧加速框架

2026-06-24 12:00 UTC+8

現代視頻擴散模型通過擴展規模提升了生成質量，但也帶來了高昂的推理成本。Sol視頻推理引擎提出了一種無需訓練的智能體加速框架，通過緩存、稀疏注意力、token剪枝、量化和內核融合五種技術，針對具體模型、硬件和配置進行實例特定優化。在三個不同規模的視頻模型上，該框架實現了超過2倍的端到端加速，同時幾乎不損失VBench質量指標。

視頻擴散模型推理加速面臨實例特異性挑戰，不同模型、硬件和配置需要不同策略。
Sol引擎採用智能體架構，並行優化五種加速技術並由集成器組合成全局棧。

基於幾何信息的計算機視覺方法：從自行車上檢測和檢查超車車輛

2026-06-24 12:00 UTC+8

本文提出了一種幾何信息驅動的計算機視覺流水線，能夠從單台自行車攝像頭自動檢測超車事件，無需多傳感器或標定。在315個真實世界事件上驗證，召回率97.8%，零誤報。系統平均在車輛通過前2.44秒識別超車意圖，84.1%的事件超過1.5秒人類反應時間閾值。橫向距離估計誤差13-14釐米，足以區分近距離超車。

提出幾何信息驅動的計算機視覺流水線，自動檢測自行車超車事件
使用RT-DETR和ByteTrack，通過三階段幾何驗證模塊

TeleMorpher：邁向魯棒的同步運動-位置編輯

2026-06-19 12:00 UTC+8

研究者提出TeleMorpher，一種基於擴散模型的一鍵式框架，用於視頻中同步運動與位置編輯。該方法通過分離主角與背景、利用運動先驗進行姿勢變形，並引入新的評估指標，實現了更可控和精確的編輯。實驗表明，在真實場景視頻和TaiChi數據集上，TeleMorpher在定量和定性評估中均優於現有方法。

TeleMorpher是首個實現同步運動-位置編輯的一鍵式框架。
利用運動先驗和真實運動指導，通過訓練自由的姿勢變形進行編輯。

學習何時去噪：優化潛擴散的異步調度

2026-06-19 12:00 UTC+8

本文提出了一種學習異步調度的方法，用於多表示潛擴散模型。通過調度校正的目標函數和快速聯合探針，學習凸且單調的調度參數。在ImageNet 256x256上，僅用200個epoch達到FID 1.05（匹配800個epoch的SFD-XL），600個epoch達到FID 1.02（超越1B參數的SFD-XXL）。無引導設置下也取得顯著提升。

提出學習多表示擴散模型中的異步去噪調度
使用調度校正的目標函數和凸單調參數化

arXiv Computer Vision

最新公開文章

深度偽造基準測試到底衡量了什麼？一項使用凍結自監督表示的審計

通過可微搜索在視覺基礎模型中實現層特定提示融合發現

超越美學：量化渾濁場景中的信息損失

GeMoE：門控熵是MoE大視覺語言模型中不確定性感知自適應路由的全部所需

超越單源認知任務圖譜：通過fMRI遷移學習研究多源任務關係

用於預測激光焊接穿透深度和形態的多任務時空深度神經網絡

城市環境中利用機載LiDAR和光學觀測的自監督樹木生物量估算

LCG：基於稀疏關係注意力的長上下文一致圖像生成

基於混合機器學習和圖像處理的水果質量預測方法

DocArena：將原始文檔轉化為可控的訓練環境，用於文檔搜索智能體

反射式VLA：利用上下文動作後果實現VLA的泛化

通過學習低損失子空間進行神經網絡量化

我們到了嗎？探索多模態大語言模型在輔助AI應用中的能力

FreeStory：無需訓練的視覺故事生成中角色一致性保持方法

Wan-Streamer v0.1：端到端實時交互基礎模型

Chorus II: 跨請求稀疏性重用實現高效圖像到視頻生成

Yuvion VL：一種用於對抗性內容和AI安全的多模態基礎模型

噪聲感知邊界增強的生成學習用於超聲散斑抑制

使用取證知識圖譜的可信圖像認證

教授：多教師無監督提示蒸餾用於視覺語言模型

REALM：面向物理世界視覺語言模型的統一紅隊測試基準

關注注意力頭：多模態大語言模型的拓撲表示對齊

HANCLIP：一族雙曲角否定視覺語言模型

ABACUS：適配統一基礎模型以橋接圖像計數理解與生成

從空間到頻譜：一種高效的頻率引導特徵表示學習器用於小目標檢測

傾聽使視覺語言模型視野更清晰

Sol視頻推理引擎：面向高效視頻生成的智能體原生全棧加速框架

基於幾何信息的計算機視覺方法：從自行車上檢測和檢查超車車輛

TeleMorpher：邁向魯棒的同步運動-位置編輯

學習何時去噪：優化潛擴散的異步調度

全部來源