arXiv Computer Vision AI 新聞來源

公開文章 294採集文章 330可信度 75刷新頻率 360 分鐘

健康狀態健康來源類型研究原文權限 允許原文最近入庫 2026-06-26ID arxiv-cs-cv運行狀態 已啟用

Use abstract and metadata; check individual paper license before full text.

最新公開文章

深度偽造基準測試到底衡量了什麼？一項使用凍結自監督表示的審計

2026-06-26 12:00 UTC+8

一項新的研究透過簡單的線性探針對影片、影像和音訊的深度偽造基準進行審計，發現通用自監督表示即可接近專用檢測器的效能，表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。

深度偽造檢測器在基準測試中表現良好，但在實際場景中頻繁失效。
研究發現，使用凍結自監督表示的線性探針能接近專用檢測器的效能。

透過可微搜尋在視覺基礎模型中實現層特定提示融合發現

2026-06-26 12:00 UTC+8

本文提出一種基於可微架構搜尋的方法，用於自動發現視覺提示微調中影像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合最佳化，並引入仿射變換和交叉注意力兩種新融合機制。在34個資料集上的實驗表明，該方法在準確率、延遲和引數數量之間實現了良好的權衡，並揭示了混合融合方式能更有效地利用Transformer的層語義。

將提示融合方案選擇建模為雙層最佳化問題，並透過可微架構搜尋求解。
提出了仿射變換和交叉注意力兩種新融合機制，豐富了搜尋空間。

超越美學：量化渾濁場景中的資訊損失

2026-06-26 12:00 UTC+8

研究人員引入了渾濁水下基線（TUB）資料集和新指標PCD，以量化極端渾濁度下水下場景的資訊損失。PCD與例項分割效能強相關，優於常用指標。

TUB資料集包含1320張極端渾濁度下的影像和超過16000個高置信度分割掩碼。
提出的PCD指標基於相位一致性圖，具有對比度不變性。

GeMoE：門控熵是MoE大視覺語言模型中不確定性感知自適應路由的全部所需

2026-06-26 12:00 UTC+8

GeMoE透過將令牌路由視為資訊編碼任務，基於最小描述長度原則和門控熵實現自適應專家選擇，在保持99.5%效能的同時將專家啟用稀疏性提升36.5%。

傳統MoE使用靜態Top-k路由，無法動態調整專家數量，造成資源浪費。
GeMoE將路由建模為最小描述長度問題，利用門控熵衡量令牌複雜度。

本研究將功能磁共振成像（fMRI）認知任務圖譜從單源遷移擴充套件到多源遷移，覆蓋人類連線組計劃23個任務狀態，並採用布林整數規劃（BIP）分析預算約束下的任務分配。訓練了1127個任務特定和遷移模型。單源遷移具有方向性和正規化結構：運動狀態在運動正規化內遷移良好，但對非運動目標支援有限。多源遷移依賴於源集組成，表明成對任務圖譜無法完全捕捉多對一關係。BIP反覆將直接監督分配給0-back和2-back工作記憶狀態，儘管它們並非最強的單個源，這可能反映了工作記憶任務中感知、注意和執行過程的整合。揭示了跨正規化受限的運動簇和工作記憶狀態的高優先順序。

將fMRI任務圖譜從一對一遷移擴充套件到多對一遷移與預算約束任務依賴
使用布林整數規劃分析23個任務狀態中的預算約束任務分配

用於預測雷射焊接穿透深度和形態的多工時空深度神經網路

2026-06-26 12:00 UTC+8

本文提出了一種創新的多工深度學習模型，能夠高精度預測雷射穿透焊接中的穿透狀態、深度和焊縫形態。該模型基於CMOS相機捕獲的熔池影像，結合焊接引數，利用卷積神經網路和狀態空間模型提取時空特徵。在測試集上，穿透狀態預測精度達99.35%，穿透深度誤差為1.79毫米，焊縫橫截面重建精度為95.65%。

提出多工深度學習模型，整合時空特徵和焊接引數，預測穿透狀態、深度和焊縫形態。
使用CMOS相機捕獲熔池影像，結合卷積神經網路和狀態空間模型處理時空資訊。

城市環境中利用機載LiDAR和光學觀測的自監督樹木生物量估算

2026-06-26 12:00 UTC+8

研究人員開發了一種自監督框架，利用機載LiDAR和光學影像估算城市樹木的地上生物量。該方法實現了高精度的樹冠分割和生物量估算，揭示了城市碳儲量及其隨時間的變化，無需手動標註。

該框架使用落葉期機載LiDAR和近紅外正射影像，在樹冠級別估算生物量。
雙流交叉注意力網路結合偽標籤，樹冠分割Dice得分達到0.84。

LCG：基於稀疏關係注意力的長上下文一致影像生成

2026-06-26 12:00 UTC+8

本文提出LCG框架，透過稀疏關係注意力（SRA）和路由一致性約束（RCC）實現長上下文多影像生成中的一致性和可擴充套件性，並構建了大規模合成資料集LCCD。實驗表明，LCG在提示對齊和角色一致性方面優於基線方法。

LCG框架利用稀疏關係注意力（SRA）選擇性關注核心特徵，確保語義和佈局資訊的高效傳播。
路由一致性約束（RCC）透過身份感知掩碼對齊結構模式，減少複雜多角色場景中的外觀漂移。

基於混合機器學習和影像處理的水果質量預測方法

2026-06-26 12:00 UTC+8

本研究提出一種結合影像處理與深度學習的混合方法評估水果新鮮度。開發了量化腐敗程度的影像處理演算法（0-100分），並訓練CNN進行二元分類（新鮮/腐爛）。透過邏輯迴歸融合兩者結果，最終使影像處理演算法能直接進行二元分類，無需CNN。該方法計算資源需求低，在蘋果和橙子資料集上實現即時檢測，準確率超90%。主要限制是水果需在白色或透明背景上隔離。

影像處理演算法量化腐敗程度（0-100）。
CNN進行新鮮/腐爛二元分類。

DocArena：將原始文件轉化為可控的訓練環境，用於文件搜尋智慧體

2026-06-26 12:00 UTC+8

DocArena是一個全自動資料整理流水線，利用多模態大語言模型（MLLM）將原始文件轉化為可控、可擴充套件的訓練環境，用於訓練文件搜尋智慧體。它無需人工標註，可生成推理密集的問答對，並構建包含8,336篇文件、覆蓋16個領域和49種語言的DocArena-79K資料集。實驗表明，基於DocArena訓練的智慧體在檢索準確率和問答質量上均達到最優。

DocArena透過MLLM視覺感知自動結構化文件並構建訓練環境，無需人工標註。
建立的DocArena-79K資料集涵蓋16個領域和49種語言，包含8,336篇文件的問答對。

反射式VLA：利用上下文動作後果實現VLA的泛化

2026-06-25 12:00 UTC+8

大多數視覺-語言-動作（VLA）模型是反應式的，僅根據當前指令和觀測預測下一步動作，難以應對部署時的環境變化。本文提出反射式VLA，透過上下文中的觀測-動作-後果三元組來調節決策，從而暴露部署特定的動作-效果對映。在LIBERO等基準測試中，反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點，消融實驗表明動作後果而非額外上下文長度是關鍵。

提出反射式VLA模型，利用觀測-動作-後果三元組作為上下文來改善泛化
透過共享注意力的VLM處理所有模態，動作專家直接推理歷史三元組

透過學習低損失子空間進行神經網路量化

2026-06-25 12:00 UTC+8

本文提出一種新的神經網路量化方法，透過學習量化感知的線性路徑來尋找低損失子空間的中點，從而在不使用直通估計器或顯式離散化的情況下實現與量化感知訓練相當的效能。

量化導致效能下降是因為離散約束使引數偏離最優解
低損失全精度解屬於連通的低損失子空間

我們到了嗎？探索多模態大語言模型在輔助AI應用中的能力

2026-06-25 12:00 UTC+8

本研究評估了多模態大語言模型（MLLM）在輔助AI任務中的表現，包括貨幣識別、場景文本問答和多語言視覺內容閱讀。研究者構建了NetraLink系統，使用頭戴式GoPro採集真實世界第一人稱資料，並建立了相應基準測試。結果揭示了當前MLLM在視覺感知和語言互動方面的優勢與侷限。

多模態大語言模型在輔助AI任務中展現出潛力，但在複雜場景下仍有侷限
NetraLink系統利用頭戴式GoPro採集真實世界第一人稱資料

FreeStory：無需訓練的視覺故事生成中角色一致性保持方法

2026-06-25 12:00 UTC+8

視覺故事生成要求影像序列與敘述提示對齊且角色外觀一致。現有免訓練方法依賴結構化提示（每句重複完整描述），不符合自然敘述。FreeStory透過實體引導的特徵複用，在自由形式提示下保持角色一致性，並引入FreeStoryBench基準，在單/多角色故事中均達到領先水平。

FreeStory無需訓練，透過實體引導的特徵複用實現自由形式提示下的角色一致性。
引入FreeStoryBench基準，包含單角色和多角色故事場景。

Wan-Streamer v0.1：端到端即時互動基礎模型

2026-06-25 12:00 UTC+8

Wan-Streamer 是一個原生流式、端到端的互動基礎模型，專為低延遲、全雙工信視聽互動設計。它在一個Transformer中統一建模語言、音訊和影片的輸入輸出，使用塊因果注意力實現增量流式，無需依賴外部模組。模型側響應延遲約200毫秒，總互動延遲約550毫秒，支援亞秒級雙工信視聽通訊。

Wan-Streamer 採用單一Transformer處理語言、音訊和影片的輸入與輸出，實現端到端互動。
透過塊因果注意力和低延遲多模態令牌排程，支援160毫秒（25fps）的流式單元。

Chorus II: 跨請求稀疏性重用實現高效影像到影片生成

2026-06-25 12:00 UTC+8

Chorus II 提出一種跨請求稀疏性重用框架，透過複用歷史請求的稀疏注意力掩碼來避免線上掩碼預測，可選的特徵重用和引導增強進一步保持生成質量，實現2.16倍加速。

針對影像到影片生成的擴散模型計算成本高的問題，提出跨請求稀疏性重用。
利用相似請求間一致的稀疏注意力模式，複用歷史稀疏掩碼作為先驗。

Yuvion VL：一種用於對抗性內容和AI安全的多模態基礎模型

2026-06-25 12:00 UTC+8

Yuvion VL是一系列專為內容和AI安全設計的多模態大語言模型，透過將安全性視為對抗性和多模態問題，構建了圍繞對抗魯棒性的完整管道。其資料構建採用自動化對抗感知合成與多階段質量控制；訓練採用三階段流程，包括風險概念跨模態對齊的繼續預訓練、生產級安全任務的指令後訓練以及增強可解釋性的推理後訓練。創新性地引入困惑-對比微調框架，透過挖掘模型特定困惑並構建多影像對比組，強制區分細粒度視覺語義元素。同時推出YVRE基準集，包含多樣化的安全評估。實驗表明Yuvion VL-32B在安全效能上領先於同類開源和閉源模型，同時保持通用能力。

Yuvion VL是多模態大語言模型系列，專為內容和AI安全構建，具有指令調優和推理導向變體。
採用三階段訓練：繼續預訓練、指令後訓練和推理後訓練，以及創新的困惑-對比微調方法。

噪聲感知邊界增強的生成學習用於超聲散斑抑制

2026-06-25 12:00 UTC+8

本文提出了一種噪聲感知邊界增強生成學習（NBGL）框架，用於超聲散斑抑制。該框架由散斑抑制分支和邊界增強分支組成，並引入噪聲感知互動權重生成（NIWG）模組，透過3D拉普拉斯濾波和中位數絕對偏差估計自適應調節噪聲水平。在141個3D經陰道超聲資料集上的實驗表明，NBGL在六個噪聲級別上均優於現有方法。

NBGL框架結合生成學習與邊界增強，同時抑制散斑並保留解剖邊界。
NIWG模組透過3D拉普拉斯濾波估計噪聲水平，生成自適應互動權重。

使用取證知識圖譜的可信影像認證

2026-06-24 12:00 UTC+8

隨著生成式AI的發展，影像偽造變得高度逼真，亟需可信的認證系統。現有的取證檢測器缺乏可解釋性，而視覺語言模型（VLM）雖能提供解釋，但無法利用取證痕跡進行可靠檢測。本文提出取證知識圖譜（FKG），將取證證據提取、結構化推理和可解釋解釋統一起來。FKG結構編碼取證痕跡及其因果依賴關係，並連結到場景內容。為生成準確的FKG，我們引入了一種新的取證認證網路和迭代上下文細化策略，引導VLM生成忠實、有依據的解釋。我們還發布了FKG-50K資料集，包含50,000個具有真實FKG的逼真偽造影像。實驗表明，FKG在檢測、偽造識別與定位以及取證論證方面均優於現有檢測器和VLM。

提出取證知識圖譜（FKG），整合取證證據提取、結構化推理和可解釋解釋。
引入新的取證認證網路和迭代上下文細化策略，以生成準確的FKG。

教授：多教師無監督提示蒸餾用於視覺語言模型

2026-06-24 12:00 UTC+8

研究人員提出TheProfessor，這是PromptKD的多教師擴充套件，用於蒸餾視覺語言模型。使用領域微調教師和零樣本教師的整合，基於置信度的整合方法將平均調和準確率從87.52提升至89.28，在域遷移資料集如EuroSAT上提升顯著。

TheProfessor擴充套件了PromptKD，採用雙教師整合：領域微調的PromptSRC ViT-L/14和零樣本的EVA-CLIP-L/14。
基於置信度的整合在四個資料集上實現了89.28的平均HM，高於87.52。

REALM：面向物理世界視覺語言模型的統一紅隊測試基準

2026-06-24 12:00 UTC+8

REALM 提供了首個針對物理世界視覺語言模型的統一紅隊測試基準，整合了12種攻擊方法、3種防禦措施和13個模型，以公平比較漏洞。關鍵發現包括文本和排版注入攻擊最有效，且模型規模本身不提升魯棒性。

REALM 是首個物理世界視覺語言模型的紅隊測試統一基準。
在黑盒威脅模型下整合了12種攻擊方法、3種防禦和13個模型。

關注注意力頭：多模態大語言模型的拓撲表示對齊

2026-06-24 12:00 UTC+8

一種名為HeRA的新方法在個體注意力頭級別上對齊多模態大語言模型的表示，提升了效能並減少了幻覺。

HeRA在個體注意力頭級別進行跨模態表示對齊。
對齊最不對齊的頭能帶來最大的效能提升。

HANCLIP：一族雙曲角否定視覺語言模型

2026-06-24 12:00 UTC+8

視覺語言模型（VLM）在面對否定表述時表現脆弱，易受誤導性文本干擾。HANCLIP透過雙曲幾何和角度三元組目標，在保持預訓練表示全域性結構的同時增強否定敏感性，僅用2萬影像-文本四元組訓練，即可提升NegBench基準效能。

VLM對否定表述的脆弱性源於淺層詞共現和誤導性文本干擾。
HANCLIP採用雙曲公式和角度三元組目標，顯式編碼“影像不是什麼”。

ABACUS：適配統一基礎模型以橋接影像計數理解與生成

2026-06-24 12:00 UTC+8

ABACUS是一個統一的視覺語言模型，能夠在無基準特定訓練的情況下處理物體計數、人群計數、指代表達計數以及計數忠實影像生成。它基於3B引數統一基礎模型構建，透過三項關鍵創新適配於物體定位任務：密度感知自適應縮放與目標圖用於空間定位；基於GRPO的邊界感知計數策略消除裁剪邊界誤差；以及迴圈一致GRPO策略，理解分支自我批評生成輸出，無需外部標註即可彌合理解與生成之間的差距。ABACUS在七個基準上均達到最先進水平，超越了任務特定專家和更大的通用模型。

ABACUS是一個統一的視覺語言模型，支援多種計數任務和計數忠實影像生成，無需特定訓練。
模型基於3B引數基礎模型，引入密度感知自適應縮放、邊界感知GRPO策略和迴圈一致GRPO策略三項創新。

從空間到頻譜：一種高效的頻率引導特徵表示學習器用於小目標檢測

2026-06-24 12:00 UTC+8

提出了一種從空間域轉向頻譜域的小目標檢測新正規化，透過頻率引導特徵表示框架（包括WDG、LGE、FDHead三個輕量模組）在多個基準上以僅1/6的引數超越YOLOv11。

小目標檢測受限於空間域檢測器丟棄高頻細節的問題
提出從空間到頻譜的正規化轉換，引入頻率引導特徵表示框架

傾聽使視覺語言模型視野更清晰

2026-06-24 12:00 UTC+8

最新研究指出，當前的視覺語言模型（VLM）在評估視覺-語言一致性時存在注意力偏移問題，即高注意力區域與語義標記不匹配。為解決這一問題，研究人員提出了基於提示側語義的PV-TAM方法，透過過濾模態邊界標記的偏差並利用注意力峰值分佈來評估對齊程度，實驗表明該方法在多個資料集上顯著提升了定位指標。

發現VLM中的解碼漂移和結構標記導致注意力分佈偏移，影響視覺-語言一致性評估
提出PV-TAM（提示-視覺標記啟用圖），利用提示側語義和注意力峰值分佈進行更準確的評估

Sol影片推理引擎：面向高效影片生成的智慧體原生全棧加速框架

2026-06-24 12:00 UTC+8

現代影片擴散模型透過擴充套件規模提升了生成質量，但也帶來了高昂的推理成本。Sol影片推理引擎提出了一種無需訓練的智慧體加速框架，透過快取、稀疏注意力、token剪枝、量化和核心融合五種技術，針對具體模型、硬體和配置進行例項特定最佳化。在三個不同規模的影片模型上，該框架實現了超過2倍的端到端加速，同時幾乎不損失VBench質量指標。

影片擴散模型推理加速面臨例項特異性挑戰，不同模型、硬體和配置需要不同策略。
Sol引擎採用智慧體架構，並行最佳化五種加速技術並由整合器組合成全域性棧。

基於幾何資訊的計算機視覺方法：從腳踏車上檢測和檢查超車車輛

2026-06-24 12:00 UTC+8

本文提出了一種幾何資訊驅動的計算機視覺流水線，能夠從單臺腳踏車攝像頭自動檢測超車事件，無需多感測器或標定。在315個真實世界事件上驗證，召回率97.8%，零誤報。系統平均在車輛透過前2.44秒識別超車意圖，84.1%的事件超過1.5秒人類反應時間閾值。橫向距離估計誤差13-14釐米，足以區分近距離超車。

提出幾何資訊驅動的計算機視覺流水線，自動檢測腳踏車超車事件
使用RT-DETR和ByteTrack，透過三階段幾何驗證模組

TeleMorpher：邁向魯棒的同步運動-位置編輯

2026-06-19 12:00 UTC+8

研究者提出TeleMorpher，一種基於擴散模型的一鍵式框架，用於影片中同步運動與位置編輯。該方法透過分離主角與背景、利用運動先驗進行姿勢變形，並引入新的評估指標，實現了更可控和精確的編輯。實驗表明，在真實場景影片和TaiChi資料集上，TeleMorpher在定量和定性評估中均優於現有方法。

TeleMorpher是首個實現同步運動-位置編輯的一鍵式框架。
利用運動先驗和真實運動指導，透過訓練自由的姿勢變形進行編輯。

學習何時去噪：最佳化潛擴散的非同步排程

2026-06-19 12:00 UTC+8

本文提出了一種學習非同步排程的方法，用於多表示潛擴散模型。透過排程校正的目標函式和快速聯合探針，學習凸且單調的排程引數。在ImageNet 256x256上，僅用200個epoch達到FID 1.05（匹配800個epoch的SFD-XL），600個epoch達到FID 1.02（超越1B引數的SFD-XXL）。無引導設定下也取得顯著提升。

提出學習多表示擴散模型中的非同步去噪排程
使用排程校正的目標函式和凸單調引數化

arXiv Computer Vision

最新公開文章

深度偽造基準測試到底衡量了什麼？一項使用凍結自監督表示的審計

透過可微搜尋在視覺基礎模型中實現層特定提示融合發現

超越美學：量化渾濁場景中的資訊損失

GeMoE：門控熵是MoE大視覺語言模型中不確定性感知自適應路由的全部所需

超越單源認知任務圖譜：透過fMRI遷移學習研究多源任務關係

用於預測雷射焊接穿透深度和形態的多工時空深度神經網路

城市環境中利用機載LiDAR和光學觀測的自監督樹木生物量估算

LCG：基於稀疏關係注意力的長上下文一致影像生成

基於混合機器學習和影像處理的水果質量預測方法

DocArena：將原始文件轉化為可控的訓練環境，用於文件搜尋智慧體

反射式VLA：利用上下文動作後果實現VLA的泛化

透過學習低損失子空間進行神經網路量化

我們到了嗎？探索多模態大語言模型在輔助AI應用中的能力

FreeStory：無需訓練的視覺故事生成中角色一致性保持方法

Wan-Streamer v0.1：端到端即時互動基礎模型

Chorus II: 跨請求稀疏性重用實現高效影像到影片生成

Yuvion VL：一種用於對抗性內容和AI安全的多模態基礎模型

噪聲感知邊界增強的生成學習用於超聲散斑抑制

使用取證知識圖譜的可信影像認證

教授：多教師無監督提示蒸餾用於視覺語言模型

REALM：面向物理世界視覺語言模型的統一紅隊測試基準

關注注意力頭：多模態大語言模型的拓撲表示對齊

HANCLIP：一族雙曲角否定視覺語言模型

ABACUS：適配統一基礎模型以橋接影像計數理解與生成

從空間到頻譜：一種高效的頻率引導特徵表示學習器用於小目標檢測

傾聽使視覺語言模型視野更清晰

Sol影片推理引擎：面向高效影片生成的智慧體原生全棧加速框架

基於幾何資訊的計算機視覺方法：從腳踏車上檢測和檢查超車車輛

TeleMorpher：邁向魯棒的同步運動-位置編輯

學習何時去噪：最佳化潛擴散的非同步排程

全部來源