深度偽造基準測試到底衡量了什麼?一項使用凍結自監督表示的審計
一項新的研究通過簡單的線性探針對視頻、圖像和音頻的深度偽造基準進行審計,發現通用自監督表示即可接近專用檢測器的性能,表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。
- 深度偽造檢測器在基準測試中表現良好,但在實際場景中頻繁失效。
- 研究發現,使用凍結自監督表示的線性探針能接近專用檢測器的性能。
來源詳情
AI News Hub 持續追蹤 arXiv Computer Vision 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Use abstract and metadata; check individual paper license before full text.
一項新的研究通過簡單的線性探針對視頻、圖像和音頻的深度偽造基準進行審計,發現通用自監督表示即可接近專用檢測器的性能,表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。
本文提出一種基於可微架構搜索的方法,用於自動發現視覺提示微調中圖像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合優化,並引入仿射變換和交叉注意力兩種新融合機制。在34個數據集上的實驗表明,該方法在準確率、延遲和參數數量之間實現了良好的權衡,並揭示了混合融合方式能更有效地利用Transformer的層語義。
研究人員引入了渾濁水下基線(TUB)數據集和新指標PCD,以量化極端渾濁度下水下場景的信息損失。PCD與實例分割性能強相關,優於常用指標。
GeMoE通過將令牌路由視為信息編碼任務,基於最小描述長度原則和門控熵實現自適應專家選擇,在保持99.5%性能的同時將專家激活稀疏性提升36.5%。
本研究將功能磁共振成像(fMRI)認知任務圖譜從單源遷移擴展到多源遷移,覆蓋人類連接組計劃23個任務狀態,並採用布爾整數規劃(BIP)分析預算約束下的任務分配。訓練了1127個任務特定和遷移模型。單源遷移具有方向性和範式結構:運動狀態在運動範式內遷移良好,但對非運動目標支持有限。多源遷移依賴於源集組成,表明成對任務圖譜無法完全捕捉多對一關係。BIP反覆將直接監督分配給0-back和2-back工作記憶狀態,儘管它們並非最強的單個源,這可能反映了工作記憶任務中感知、注意和執行過程的整合。揭示了跨範式受限的運動簇和工作記憶狀態的高優先級。
本文提出了一種創新的多任務深度學習模型,能夠高精度預測激光穿透焊接中的穿透狀態、深度和焊縫形態。該模型基於CMOS相機捕獲的熔池圖像,結合焊接參數,利用卷積神經網絡和狀態空間模型提取時空特徵。在測試集上,穿透狀態預測精度達99.35%,穿透深度誤差為1.79毫米,焊縫橫截面重建精度為95.65%。
研究人員開發了一種自監督框架,利用機載LiDAR和光學影像估算城市樹木的地上生物量。該方法實現了高精度的樹冠分割和生物量估算,揭示了城市碳儲量及其隨時間的變化,無需手動標註。
本文提出LCG框架,通過稀疏關係注意力(SRA)和路由一致性約束(RCC)實現長上下文多圖像生成中的一致性和可擴展性,並構建了大規模合成數據集LCCD。實驗表明,LCG在提示對齊和角色一致性方面優於基線方法。
本研究提出一種結合圖像處理與深度學習的混合方法評估水果新鮮度。開發了量化腐敗程度的圖像處理算法(0-100分),並訓練CNN進行二元分類(新鮮/腐爛)。通過邏輯迴歸融合兩者結果,最終使圖像處理算法能直接進行二元分類,無需CNN。該方法計算資源需求低,在蘋果和橙子數據集上實現實時檢測,準確率超90%。主要限制是水果需在白色或透明背景上隔離。
DocArena是一個全自動數據整理流水線,利用多模態大語言模型(MLLM)將原始文檔轉化為可控、可擴展的訓練環境,用於訓練文檔搜索智能體。它無需人工標註,可生成推理密集的問答對,並構建包含8,336篇文檔、覆蓋16個領域和49種語言的DocArena-79K數據集。實驗表明,基於DocArena訓練的智能體在檢索準確率和問答質量上均達到最優。
大多數視覺-語言-動作(VLA)模型是反應式的,僅根據當前指令和觀測預測下一步動作,難以應對部署時的環境變化。本文提出反射式VLA,通過上下文中的觀測-動作-後果三元組來調節決策,從而暴露部署特定的動作-效果映射。在LIBERO等基準測試中,反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點,消融實驗表明動作後果而非額外上下文長度是關鍵。
本文提出一種新的神經網絡量化方法,通過學習量化感知的線性路徑來尋找低損失子空間的中點,從而在不使用直通估計器或顯式離散化的情況下實現與量化感知訓練相當的性能。
本研究評估了多模態大語言模型(MLLM)在輔助AI任務中的表現,包括貨幣識別、場景文本問答和多語言視覺內容閲讀。研究者構建了NetraLink系統,使用頭戴式GoPro採集真實世界第一人稱數據,並創建了相應基準測試。結果揭示了當前MLLM在視覺感知和語言交互方面的優勢與侷限。
視覺故事生成要求圖像序列與敍述提示對齊且角色外觀一致。現有免訓練方法依賴結構化提示(每句重複完整描述),不符合自然敍述。FreeStory通過實體引導的特徵複用,在自由形式提示下保持角色一致性,並引入FreeStoryBench基準,在單/多角色故事中均達到領先水平。
Wan-Streamer 是一個原生流式、端到端的交互基礎模型,專為低延遲、全雙工信視聽交互設計。它在一個Transformer中統一建模語言、音頻和視頻的輸入輸出,使用塊因果注意力實現增量流式,無需依賴外部模塊。模型側響應延遲約200毫秒,總交互延遲約550毫秒,支持亞秒級雙工信視聽通信。
Chorus II 提出一種跨請求稀疏性重用框架,通過複用歷史請求的稀疏注意力掩碼來避免在線掩碼預測,可選的特徵重用和引導增強進一步保持生成質量,實現2.16倍加速。
Yuvion VL是一系列專為內容和AI安全設計的多模態大語言模型,通過將安全性視為對抗性和多模態問題,構建了圍繞對抗魯棒性的完整管道。其數據構建採用自動化對抗感知合成與多階段質量控制;訓練採用三階段流程,包括風險概念跨模態對齊的繼續預訓練、生產級安全任務的指令後訓練以及增強可解釋性的推理後訓練。創新性地引入困惑-對比微調框架,通過挖掘模型特定困惑並構建多圖像對比組,強制區分細粒度視覺語義元素。同時推出YVRE基準集,包含多樣化的安全評估。實驗表明Yuvion VL-32B在安全性能上領先於同類開源和閉源模型,同時保持通用能力。
本文提出了一種噪聲感知邊界增強生成學習(NBGL)框架,用於超聲散斑抑制。該框架由散斑抑制分支和邊界增強分支組成,並引入噪聲感知交互權重生成(NIWG)模塊,通過3D拉普拉斯濾波和中位數絕對偏差估計自適應調節噪聲水平。在141個3D經陰道超聲數據集上的實驗表明,NBGL在六個噪聲級別上均優於現有方法。
隨着生成式AI的發展,圖像偽造變得高度逼真,亟需可信的認證系統。現有的取證檢測器缺乏可解釋性,而視覺語言模型(VLM)雖能提供解釋,但無法利用取證痕跡進行可靠檢測。本文提出取證知識圖譜(FKG),將取證證據提取、結構化推理和可解釋解釋統一起來。FKG結構編碼取證痕跡及其因果依賴關係,並鏈接到場景內容。為生成準確的FKG,我們引入了一種新的取證認證網絡和迭代上下文細化策略,引導VLM生成忠實、有依據的解釋。我們還發布了FKG-50K數據集,包含50,000個具有真實FKG的逼真偽造圖像。實驗表明,FKG在檢測、偽造識別與定位以及取證論證方面均優於現有檢測器和VLM。
研究人員提出TheProfessor,這是PromptKD的多教師擴展,用於蒸餾視覺語言模型。使用領域微調教師和零樣本教師的集成,基於置信度的集成方法將平均調和準確率從87.52提升至89.28,在域遷移數據集如EuroSAT上提升顯著。
REALM 提供了首個針對物理世界視覺語言模型的統一紅隊測試基準,整合了12種攻擊方法、3種防禦措施和13個模型,以公平比較漏洞。關鍵發現包括文本和排版注入攻擊最有效,且模型規模本身不提升魯棒性。
一種名為HeRA的新方法在個體注意力頭級別上對齊多模態大語言模型的表示,提升了性能並減少了幻覺。
視覺語言模型(VLM)在面對否定表述時表現脆弱,易受誤導性文本干擾。HANCLIP通過雙曲幾何和角度三元組目標,在保持預訓練表示全局結構的同時增強否定敏感性,僅用2萬圖像-文本四元組訓練,即可提升NegBench基準性能。
ABACUS是一個統一的視覺語言模型,能夠在無基準特定訓練的情況下處理物體計數、人羣計數、指代表達計數以及計數忠實圖像生成。它基於3B參數統一基礎模型構建,通過三項關鍵創新適配於物體定位任務:密度感知自適應縮放與目標圖用於空間定位;基於GRPO的邊界感知計數策略消除裁剪邊界誤差;以及循環一致GRPO策略,理解分支自我批評生成輸出,無需外部標註即可彌合理解與生成之間的差距。ABACUS在七個基準上均達到最先進水平,超越了任務特定專家和更大的通用模型。
提出了一種從空間域轉向頻譜域的小目標檢測新範式,通過頻率引導特徵表示框架(包括WDG、LGE、FDHead三個輕量模塊)在多個基準上以僅1/6的參數超越YOLOv11。
最新研究指出,當前的視覺語言模型(VLM)在評估視覺-語言一致性時存在注意力偏移問題,即高注意力區域與語義標記不匹配。為解決這一問題,研究人員提出了基於提示側語義的PV-TAM方法,通過過濾模態邊界標記的偏差並利用注意力峯值分佈來評估對齊程度,實驗表明該方法在多個數據集上顯著提升了定位指標。
現代視頻擴散模型通過擴展規模提升了生成質量,但也帶來了高昂的推理成本。Sol視頻推理引擎提出了一種無需訓練的智能體加速框架,通過緩存、稀疏注意力、token剪枝、量化和內核融合五種技術,針對具體模型、硬件和配置進行實例特定優化。在三個不同規模的視頻模型上,該框架實現了超過2倍的端到端加速,同時幾乎不損失VBench質量指標。
本文提出了一種幾何信息驅動的計算機視覺流水線,能夠從單台自行車攝像頭自動檢測超車事件,無需多傳感器或標定。在315個真實世界事件上驗證,召回率97.8%,零誤報。系統平均在車輛通過前2.44秒識別超車意圖,84.1%的事件超過1.5秒人類反應時間閾值。橫向距離估計誤差13-14釐米,足以區分近距離超車。
研究者提出TeleMorpher,一種基於擴散模型的一鍵式框架,用於視頻中同步運動與位置編輯。該方法通過分離主角與背景、利用運動先驗進行姿勢變形,並引入新的評估指標,實現了更可控和精確的編輯。實驗表明,在真實場景視頻和TaiChi數據集上,TeleMorpher在定量和定性評估中均優於現有方法。
本文提出了一種學習異步調度的方法,用於多表示潛擴散模型。通過調度校正的目標函數和快速聯合探針,學習凸且單調的調度參數。在ImageNet 256x256上,僅用200個epoch達到FID 1.05(匹配800個epoch的SFD-XL),600個epoch達到FID 1.02(超越1B參數的SFD-XXL)。無引導設置下也取得顯著提升。