深度偽造基準測試到底衡量了什麼?一項使用凍結自監督表示的審計
一項新的研究透過簡單的線性探針對影片、影像和音訊的深度偽造基準進行審計,發現通用自監督表示即可接近專用檢測器的效能,表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。
- 深度偽造檢測器在基準測試中表現良好,但在實際場景中頻繁失效。
- 研究發現,使用凍結自監督表示的線性探針能接近專用檢測器的效能。
來源詳情
AI News Hub 持續追蹤 arXiv Computer Vision 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Use abstract and metadata; check individual paper license before full text.
一項新的研究透過簡單的線性探針對影片、影像和音訊的深度偽造基準進行審計,發現通用自監督表示即可接近專用檢測器的效能,表明這些基準可能更多衡量的是通用模態理解而非真正的鑑偽能力。
本文提出一種基於可微架構搜尋的方法,用於自動發現視覺提示微調中影像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合最佳化,並引入仿射變換和交叉注意力兩種新融合機制。在34個資料集上的實驗表明,該方法在準確率、延遲和引數數量之間實現了良好的權衡,並揭示了混合融合方式能更有效地利用Transformer的層語義。
研究人員引入了渾濁水下基線(TUB)資料集和新指標PCD,以量化極端渾濁度下水下場景的資訊損失。PCD與例項分割效能強相關,優於常用指標。
GeMoE透過將令牌路由視為資訊編碼任務,基於最小描述長度原則和門控熵實現自適應專家選擇,在保持99.5%效能的同時將專家啟用稀疏性提升36.5%。
本研究將功能磁共振成像(fMRI)認知任務圖譜從單源遷移擴充套件到多源遷移,覆蓋人類連線組計劃23個任務狀態,並採用布林整數規劃(BIP)分析預算約束下的任務分配。訓練了1127個任務特定和遷移模型。單源遷移具有方向性和正規化結構:運動狀態在運動正規化內遷移良好,但對非運動目標支援有限。多源遷移依賴於源集組成,表明成對任務圖譜無法完全捕捉多對一關係。BIP反覆將直接監督分配給0-back和2-back工作記憶狀態,儘管它們並非最強的單個源,這可能反映了工作記憶任務中感知、注意和執行過程的整合。揭示了跨正規化受限的運動簇和工作記憶狀態的高優先順序。
本文提出了一種創新的多工深度學習模型,能夠高精度預測雷射穿透焊接中的穿透狀態、深度和焊縫形態。該模型基於CMOS相機捕獲的熔池影像,結合焊接引數,利用卷積神經網路和狀態空間模型提取時空特徵。在測試集上,穿透狀態預測精度達99.35%,穿透深度誤差為1.79毫米,焊縫橫截面重建精度為95.65%。
研究人員開發了一種自監督框架,利用機載LiDAR和光學影像估算城市樹木的地上生物量。該方法實現了高精度的樹冠分割和生物量估算,揭示了城市碳儲量及其隨時間的變化,無需手動標註。
本文提出LCG框架,透過稀疏關係注意力(SRA)和路由一致性約束(RCC)實現長上下文多影像生成中的一致性和可擴充套件性,並構建了大規模合成資料集LCCD。實驗表明,LCG在提示對齊和角色一致性方面優於基線方法。
本研究提出一種結合影像處理與深度學習的混合方法評估水果新鮮度。開發了量化腐敗程度的影像處理演算法(0-100分),並訓練CNN進行二元分類(新鮮/腐爛)。透過邏輯迴歸融合兩者結果,最終使影像處理演算法能直接進行二元分類,無需CNN。該方法計算資源需求低,在蘋果和橙子資料集上實現即時檢測,準確率超90%。主要限制是水果需在白色或透明背景上隔離。
DocArena是一個全自動資料整理流水線,利用多模態大語言模型(MLLM)將原始文件轉化為可控、可擴充套件的訓練環境,用於訓練文件搜尋智慧體。它無需人工標註,可生成推理密集的問答對,並構建包含8,336篇文件、覆蓋16個領域和49種語言的DocArena-79K資料集。實驗表明,基於DocArena訓練的智慧體在檢索準確率和問答質量上均達到最優。
大多數視覺-語言-動作(VLA)模型是反應式的,僅根據當前指令和觀測預測下一步動作,難以應對部署時的環境變化。本文提出反射式VLA,透過上下文中的觀測-動作-後果三元組來調節決策,從而暴露部署特定的動作-效果對映。在LIBERO等基準測試中,反射式VLA在分佈偏移下平均成功率提升5.4和4.2個百分點,消融實驗表明動作後果而非額外上下文長度是關鍵。
本文提出一種新的神經網路量化方法,透過學習量化感知的線性路徑來尋找低損失子空間的中點,從而在不使用直通估計器或顯式離散化的情況下實現與量化感知訓練相當的效能。
本研究評估了多模態大語言模型(MLLM)在輔助AI任務中的表現,包括貨幣識別、場景文本問答和多語言視覺內容閱讀。研究者構建了NetraLink系統,使用頭戴式GoPro採集真實世界第一人稱資料,並建立了相應基準測試。結果揭示了當前MLLM在視覺感知和語言互動方面的優勢與侷限。
視覺故事生成要求影像序列與敘述提示對齊且角色外觀一致。現有免訓練方法依賴結構化提示(每句重複完整描述),不符合自然敘述。FreeStory透過實體引導的特徵複用,在自由形式提示下保持角色一致性,並引入FreeStoryBench基準,在單/多角色故事中均達到領先水平。
Wan-Streamer 是一個原生流式、端到端的互動基礎模型,專為低延遲、全雙工信視聽互動設計。它在一個Transformer中統一建模語言、音訊和影片的輸入輸出,使用塊因果注意力實現增量流式,無需依賴外部模組。模型側響應延遲約200毫秒,總互動延遲約550毫秒,支援亞秒級雙工信視聽通訊。
Chorus II 提出一種跨請求稀疏性重用框架,透過複用歷史請求的稀疏注意力掩碼來避免線上掩碼預測,可選的特徵重用和引導增強進一步保持生成質量,實現2.16倍加速。
Yuvion VL是一系列專為內容和AI安全設計的多模態大語言模型,透過將安全性視為對抗性和多模態問題,構建了圍繞對抗魯棒性的完整管道。其資料構建採用自動化對抗感知合成與多階段質量控制;訓練採用三階段流程,包括風險概念跨模態對齊的繼續預訓練、生產級安全任務的指令後訓練以及增強可解釋性的推理後訓練。創新性地引入困惑-對比微調框架,透過挖掘模型特定困惑並構建多影像對比組,強制區分細粒度視覺語義元素。同時推出YVRE基準集,包含多樣化的安全評估。實驗表明Yuvion VL-32B在安全效能上領先於同類開源和閉源模型,同時保持通用能力。
本文提出了一種噪聲感知邊界增強生成學習(NBGL)框架,用於超聲散斑抑制。該框架由散斑抑制分支和邊界增強分支組成,並引入噪聲感知互動權重生成(NIWG)模組,透過3D拉普拉斯濾波和中位數絕對偏差估計自適應調節噪聲水平。在141個3D經陰道超聲資料集上的實驗表明,NBGL在六個噪聲級別上均優於現有方法。
隨著生成式AI的發展,影像偽造變得高度逼真,亟需可信的認證系統。現有的取證檢測器缺乏可解釋性,而視覺語言模型(VLM)雖能提供解釋,但無法利用取證痕跡進行可靠檢測。本文提出取證知識圖譜(FKG),將取證證據提取、結構化推理和可解釋解釋統一起來。FKG結構編碼取證痕跡及其因果依賴關係,並連結到場景內容。為生成準確的FKG,我們引入了一種新的取證認證網路和迭代上下文細化策略,引導VLM生成忠實、有依據的解釋。我們還發布了FKG-50K資料集,包含50,000個具有真實FKG的逼真偽造影像。實驗表明,FKG在檢測、偽造識別與定位以及取證論證方面均優於現有檢測器和VLM。
研究人員提出TheProfessor,這是PromptKD的多教師擴充套件,用於蒸餾視覺語言模型。使用領域微調教師和零樣本教師的整合,基於置信度的整合方法將平均調和準確率從87.52提升至89.28,在域遷移資料集如EuroSAT上提升顯著。
REALM 提供了首個針對物理世界視覺語言模型的統一紅隊測試基準,整合了12種攻擊方法、3種防禦措施和13個模型,以公平比較漏洞。關鍵發現包括文本和排版注入攻擊最有效,且模型規模本身不提升魯棒性。
一種名為HeRA的新方法在個體注意力頭級別上對齊多模態大語言模型的表示,提升了效能並減少了幻覺。
視覺語言模型(VLM)在面對否定表述時表現脆弱,易受誤導性文本干擾。HANCLIP透過雙曲幾何和角度三元組目標,在保持預訓練表示全域性結構的同時增強否定敏感性,僅用2萬影像-文本四元組訓練,即可提升NegBench基準效能。
ABACUS是一個統一的視覺語言模型,能夠在無基準特定訓練的情況下處理物體計數、人群計數、指代表達計數以及計數忠實影像生成。它基於3B引數統一基礎模型構建,透過三項關鍵創新適配於物體定位任務:密度感知自適應縮放與目標圖用於空間定位;基於GRPO的邊界感知計數策略消除裁剪邊界誤差;以及迴圈一致GRPO策略,理解分支自我批評生成輸出,無需外部標註即可彌合理解與生成之間的差距。ABACUS在七個基準上均達到最先進水平,超越了任務特定專家和更大的通用模型。
提出了一種從空間域轉向頻譜域的小目標檢測新正規化,透過頻率引導特徵表示框架(包括WDG、LGE、FDHead三個輕量模組)在多個基準上以僅1/6的引數超越YOLOv11。
最新研究指出,當前的視覺語言模型(VLM)在評估視覺-語言一致性時存在注意力偏移問題,即高注意力區域與語義標記不匹配。為解決這一問題,研究人員提出了基於提示側語義的PV-TAM方法,透過過濾模態邊界標記的偏差並利用注意力峰值分佈來評估對齊程度,實驗表明該方法在多個資料集上顯著提升了定位指標。
現代影片擴散模型透過擴充套件規模提升了生成質量,但也帶來了高昂的推理成本。Sol影片推理引擎提出了一種無需訓練的智慧體加速框架,透過快取、稀疏注意力、token剪枝、量化和核心融合五種技術,針對具體模型、硬體和配置進行例項特定最佳化。在三個不同規模的影片模型上,該框架實現了超過2倍的端到端加速,同時幾乎不損失VBench質量指標。
本文提出了一種幾何資訊驅動的計算機視覺流水線,能夠從單臺腳踏車攝像頭自動檢測超車事件,無需多感測器或標定。在315個真實世界事件上驗證,召回率97.8%,零誤報。系統平均在車輛透過前2.44秒識別超車意圖,84.1%的事件超過1.5秒人類反應時間閾值。橫向距離估計誤差13-14釐米,足以區分近距離超車。
研究者提出TeleMorpher,一種基於擴散模型的一鍵式框架,用於影片中同步運動與位置編輯。該方法透過分離主角與背景、利用運動先驗進行姿勢變形,並引入新的評估指標,實現了更可控和精確的編輯。實驗表明,在真實場景影片和TaiChi資料集上,TeleMorpher在定量和定性評估中均優於現有方法。
本文提出了一種學習非同步排程的方法,用於多表示潛擴散模型。透過排程校正的目標函式和快速聯合探針,學習凸且單調的排程引數。在ImageNet 256x256上,僅用200個epoch達到FID 1.05(匹配800個epoch的SFD-XL),600個epoch達到FID 1.02(超越1B引數的SFD-XXL)。無引導設定下也取得顯著提升。