AI News HubLIVE
站内改写

V-JEPA 2.1的密集特徵在哪裡有效(以及在哪裡無效)

一項針對Meta V-JEPA 2.1的預註冊魯棒性研究,跨越四個模型尺寸,發現密集特徵在時間擾動下能預測任務失敗,但在影像噪聲擾動下無效;魯棒性不隨規模單調增長;模型對方向敏感。這些發現對機器人部署有重要指導意義。

文章情報

投資人進階

要點

  • V-JEPA 2.1的特徵沿兩個獨立軸分隔:時間結構和影像內容,穩定性指標僅對時間擾動可靠。
  • 魯棒性並非隨模型變大而單調提升;2B模型在三種擾動中不如1B模型魯棒。
  • 水平翻轉對特徵表示的破壞程度與倒序播放影片相當,表明模型具有強方向敏感性。
  • 對於機器人應用,模型選擇需針對具體任務進行實證評估,當影像噪聲佔主導時應採用任務導向評估。

為什麼重要

這條新聞值得關注,因為V-JEPA 2.1的特徵沿兩個獨立軸分隔:時間結構和影像內容,穩定性指標僅對時間擾動可靠。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

V-JEPA 2.1的密集特徵在哪裡有效(以及在哪裡無效)

2026年5月6日

一項預註冊的魯棒性研究,覆蓋所有四個V-JEPA 2.1模型尺寸,並提供了部署經驗教訓。

概要

我們對Meta於2026年3月釋出的V-JEPA 2.1進行了預註冊魯棒性研究,並測試了所有四個已釋出的模型尺寸(引數從8000萬到20億)。從322個實驗單元的掃描中,三個發現尤為突出:

**V-JEPA 2.1的密集特徵被分割槽。** 在時間擾動(幀丟失、遮擋,r = 0.35–0.37)下,這些特徵能預測下游任務失敗,但在影像噪聲擾動(高斯噪聲、運動模糊、低光)下,相關性統計上無法與零區分。在一個軸上的引數魯棒性不能遷移到另一個軸。

**更大的模型並不一定更可靠。** 在每一個一級擾動測試中,四個模型尺寸的魯棒性均呈現非單調性。引數量20億的“巨型”模型在五種擾動中的三種實際上比10億的“巨大”模型更不魯棒。

**V-JEPA 2.1對方向高度敏感。** 簡單的水平翻轉(保留了所有時間結構)對特徵表示的破壞程度與倒序播放影片相當。

這項研究為什麼在實踐中重要

這不是一項學術練習。Poisson Labs正在將V-JEPA系列模型整合到兩個生產機器人工作負載中的感知骨幹:

  • **工業電纜插入**:在雜亂環境中進行亞毫米級工業電纜插入的操作策略。視覺條件在光照、機械臂自遮擋以及網路約束下的幀率變化方面差異巨大。
  • **無人機基礎設施檢查**:用於塔架和管道檢查的自主飛行感知,其中相機在機動過程中保持恆定滾動,運動模糊是常發因素,低光操作也很常見。

JEPA作為世界模型骨幹的吸引力

V-JEPA 2.1被定位為一種“世界模型”,即一個對物理世界運作方式有內部表示的系統。與消耗大量計算資源重建高熵畫素的生成模型不同,JEPA架構僅在壓縮的潛在空間中進行預測。這為機器人學提供了兩個好處:

  • **關注動作而非外觀**。生成畫素預測問“這看起來像什麼?”,JEPA潛在預測問“這裡發生了什麼?”。透過忽略無關的視覺噪聲(如微妙的光照變化),骨幹可以專注於場景的底層物理和因果結構。
  • **安全的心理模擬**。世界模型讓機器人模擬“想象”的未來,在真正移動之前測試如果以特定角度抓取物體會發生什麼。系統從成千上萬的想象錯誤中學習,而無需冒實際硬體風險。

在乾淨的基準測試(如Something-Something-V2)上達到SOTA準確率是必要的基線,但它無法告訴我們模型的失效面。對於工廠中的機器人或風中的無人機來說,相關的問題是:

  • **優雅退化還是災難性退化**?線性退化的特徵能否透過下游訓練恢復,還是存在一個使系統變得脆弱的急劇斷崖?
  • **架構敘事與現實**。V-JEPA 2.1被定位為時間一致性的影片模型。如果特徵在時間擾動下比影像噪聲更容易受影響,基於“時間”敘事的工程決策將會出錯。
  • **規模化的捷徑**。轉向20億模型是否可靠地帶來了可部署性?如果規模化是非單調的,模型選擇必須基於經驗並按應用而定。

這項研究為V-JEPA 2.1系列回答了這些問題。

方法論

V-JEPA 2.1透過密集預測損失、深層自監督和模態特定分詞器引入了密集特徵。編碼器將影片處理為16幀的片段,並將連續的幀對組合成單個時間令牌。架構稱之為管元大小為2。因此,一個16幀的片段變成8個時間位置,每個位置攜帶少量跨幀平均資訊。這對於後來理解為什麼影像噪聲比幀丟失影響更大至關重要。

我們評估了所有四個已釋出的尺寸:ViT基礎(8000萬)、ViT大型(3億)、ViT巨大(10億)和ViT巨型(20億)。

設定

我們在200個SSv2驗證片段上執行了9種受控擾動,每種有10個強度級別(s ∈ [0.1, 1.0]),以構建核心魯棒性曲線。然後,我們在30個DAVIS片段上測量了功能跟蹤退化(五種擾動×五種強度×四個模型),以將表示漂移落地到真實世界任務中。

度量層次

對於每個片段,編碼器在每個時間位置產生一個網格的補丁級特徵向量。三個度量衡量乾淨片段與其擾動版本之間這些特徵可能漂移的不同方式。

  • **M1(幀保真度)**:乾淨與擾動中匹配補丁之間的平均餘弦距離(相同時間和位置)。通俗地說:“每個單獨補丁的表示移動了多少?”低值表示編碼器在該位置產生幾乎相同的特徵;高值表示補丁被重新解釋。
  • **M2(時間一致性)**:時間梯度向量(每補丁差異特徵(t+1) - 特徵(t))之間的餘弦距離。我們比較乾淨與擾動的梯度向量並取平均。通俗地說:“模型在每個位置的運動感漂移了多少?”這是對V-JEPA核心架構主張(時間一致性)的主要探測,因為它隔離了幀間變化與絕對幀內容。
  • **M3(功能效用)**:DAVIS上的補丁對應。我們使用模型的特徵作為匹配訊號,跨幀跟蹤地面真相的目標區域。通俗地說:“如果你嘗試實際使用這些特徵來跟蹤擾動片段中的物體,跟蹤效果會有多差?”這是三個度量中唯一衡量下游任務而非內部特徵穩定性的。

我們在啟動前預註冊了六個假設,並附有明確的數值決策規則。這排除了事後度量調優。

關於樣本量和種子

每個實驗單元200個SSv2片段處於影片基準測試的標準範圍內(MVBench、CVRR-ES每個任務使用200–240個例項),並且對於觀察到的效應量來說是舒適的。所有200個實驗單元的每單元M2均值的Bootstrap 95%置信區間一致較小(中位數±0.015,最大值±0.025)。下面規模化故事中最小跨模型躍遷(遮擋,+0.017)是其置信區間半寬的5.7倍,遠高於區分訊號與噪聲的2倍閾值。

我們每個單元使用單一隨機種子,這遵循ImageNet-C先例(Hendrycks & Dietterich, 2019),以便進行蘋果對蘋果的跨模型比較。對於每個單元200個片段,片段間方差主導單元內擾動實現方差。多種子執行會收緊誤差線,但鑑於觀察到的效應大小,不會翻轉六個假設中的任何一個判斷。

校準:度量按預期工作

為了驗證M2度量,我們推導了其在反轉播放輸入下的行為的分析預測:如果翻轉片段使最後一幀首先播放,則時間梯度向量應反轉方向,並且(在梯度並非跨幀病態對齊的通用假設下)乾淨正向與擾動反向梯度之間的餘弦距離應接近特定值。對於16幀輸入且管元大小為2,該值約為1.14。

在30個DAVIS片段上使用ViT基礎模型的校準產生了均值M2 = 1.020(標準差0.036)。在整個SSv2掃描中,所有四個模型的均值緊密聚集在1.034到1.037之間。這兩個數字都在預測的[0.9, 1.4]範圍內。DAVIS校準(n = 30)和SSv2反轉單元(n = 200/模型)的置信區間不重疊,但間隙很小,可能反映了DAVIS更小、手工策劃的片段分佈。度量測量了數學上應有的量。

針對預註冊預測的校準探針:恆等往返處於數值噪聲水平(最大|M2| = 9.8e-9)。反向播放在所有四個模型上位於1.034–1.037,處於預測的[0.9, 1.4]範圍內,比分析中心值1.14低約10%。水平翻轉反駁了預測的上限0.30,在所有模型上註冊為0.91(見發現3)。

發現1:V-JEPA 2.1的密集特徵被分割槽

最大的發現:M2(表示穩定性)僅對特定擾動類別預測下游任務失敗(M3)。

| 擾動 | r(ΔM3, M2) | 95% CI | 解釋 | |------|------------|--------|------| | 幀丟失 | +0.370 | [+0.299, +0.437] | M2預測任務失敗 | | 遮擋 | +0.350 | [+0.278, +0.418] | M2預測任務失敗 | | 運動模糊 | +0.093 | [+0.013, +0.171] | 與零無法區分 | | 低光 | +0.049 | [−0.031, +0.128] | 與零無法區分 | | 高斯噪聲 | −0.055 | [−0.135, +0.025] | 與零無法區分 |

時間軸擾動與影像噪聲擾動的置信區間不重疊。最接近的差距是遮擋的下限(+0.278)與運動模糊的上限(+0.171),相差+0.106。兩個擾動族在95%置信水平上統計上可分離。聚合r = 0.161(95% CI [0.126, 0.195])可與零區分,但遠低於預註冊的模糊閾值0.30和確認閾值0.50。

V-JEPA 2.1的特徵似乎有兩個半獨立軸:一個對噪聲敏感但不承擔跟蹤任務的影像內容軸,以及一個DAVIS風格對應所依賴的時間結構軸。

**部署影響**。對於Cable Mind,自遮擋和可變幀率是主要壓力,M2是可靠的健康檢查。對於Drone Inspection,運動模糊和感測器噪聲佔主導,特徵級穩定性指標將具有誤導性;必須使用任務導向評估替代。

發現2:更大的模型並不一定更可靠

與單調規模化假設相反,魯棒性在最大尺度上趨於平穩甚至逆轉。在每個一級擾動中,規模化都是非單調的:

  • 20億“巨型”模型在高斯噪聲(M2跳躍+0.038)、運動模糊(+0.050)和低光(+0.036)上比10億“巨大”模型更不魯棒。
  • 10億“巨大”模型在幀丟失(+0.041)和遮擋(+0.017)上比3億“大型”模型更不魯棒。

所有五個跳躍都至少超過其合併置信區間半寬的5倍。沒有一個是邊緣噪聲。

一個機制解釋來自最近關於深度ViT中“樞紐邊緣化”的工作(arXiv:2511.21635)。簡而言之:在Vision Transformer中,特殊的[CLS]令牌應作為全域性摘要,所有補丁資訊聚合於此。隨著模型變深和訓練更好,該單一樞紐變得不那麼承載;補丁令牌本身開始分發資訊,而不是透過一個摘要節點路由一切。這通常是好的,直到模型過深並進入“過度通訊”機制,額外的層使資訊混亂而非精煉。V-JEPA 2.1的訓練目標(密集預測損失)明確透過強制每個補丁令牌保留區域性身份來反對單樞紐聚合。如果20億變體已經進入過度通訊機制,而蒸餾後的...(原文截斷)