2026-05-11站内改写

V-JEPA 2.1の高密度特徴の有効性と限界

MetaのV-JEPA 2.1に関する事前登録されたロバスト性研究を4つのモデルサイズで実施。高密度特徴は時間的摂動と画像ノイズ摂動で分割され、モデルが大きくても必ずしもロバストではなく、方向に敏感であることが明らかになった。これらの知見はロボット工学への展開に実用的な示唆を与える。

記事インテリジェンス

投資家上級

要点

V-JEPA 2.1の特徴は時間構造と画像内容という2つの独立した軸に分割され、安定性指標は時間的摂動に対してのみ信頼できる。
ロバスト性は単調にスケールせず、2Bモデルは3つの摂動において1Bモデルよりロバスト性が低い。
水平反転はビデオの逆再生と同程度に特徴表現を破壊し、強い方向敏感性を示す。
ロボット工学では、アプリケーションごとに経験的にモデル選択を行い、画像ノイズが支配的な場合はタスクベースの評価が必要である。

重要な理由

このニュースが重要なのは、V-JEPA 2.1の特徴は時間構造と画像内容という2つの独立した軸に分割され、安定性指標は時間的摂動に対してのみ信頼できるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

V-JEPA 2.1の高密度特徴の有効性と限界

2026年5月6日

全4つのV-JEPA 2.1モデルサイズを対象とした事前登録済みロバスト性研究と、展開に関する教訓。

概要

我々はMetaのV-JEPA 2.1（2026年3月リリース）に関する事前登録済みロバスト性研究を実施し、8000万から20億パラメータの全4つのリリース済みモデルサイズでテストした。322セルのスイープから3つの発見が際立った。

**V-JEPA 2.1の高密度特徴は分割されている。** 時間的摂動（フレーム欠落、オクルージョン、r = 0.35–0.37）では下流タスクの失敗を予測するが、画像ノイズ摂動（ガウシアンノイズ、モーションブラー、低照度）では統計的にゼロとの相関と区別できない。一方の軸でのパラメトリックロバスト性は別の軸に転移しない。

**大規模が必ずしも優れているわけではない。** テストしたすべてのTier 1摂動において、4つのモデル規模にわたってロバスト性は非単調であった。20億パラメータの「巨大」モデルは、5つの摂動のうち3つで10億の「大」バリアントよりもロバスト性が低い。

**V-JEPA 2.1は方向に敏感である。** すべての時間構造を保持する単純な水平反転が、ビデオを逆再生するのと同じくらい特徴表現を破壊する。

この研究が実践上重要な理由

これは学術的な演習ではない。Poisson LabsはV-JEPAファミリーモデルを2つの生産ロボットワークロードの認識バックボーンとして統合している。

**産業用ケーブル挿入**：乱雑な環境でのサブミリメートル精度の産業用ケーブル挿入のための操作ポリシー。視覚条件は照明、マニピュレータによる自己遮蔽、ネットワーク制約下でのフレームレート変動にわたって大きく異なる。
**ドローンインフラ検査**：タワーやパイプライン検査のための自律飛行認識。操縦中はカメラのロールが一定で、モーションブラーが常に存在し、低照度での運用が一般的である。

世界モデルバックボーンとしてのJEPAの魅力

V-JEPA 2.1は「世界モデル」として位置づけられており、物理世界の仕組みに関する内部表現を持つシステムである。高エントロピーピクセルの再構成に膨大な計算を消費する生成モデルとは異なり、JEPAアーキテクチャは圧縮された潜在空間でのみ予測を行う。これによりロボット工学に2つの利点をもたらす。

**動作に焦点を当て、見た目を無視する**。生成ピクセル予測は「これはどのように見えるか？」と問い、JEPA潜在予測は「ここで何が起こっているか？」と問う。微妙な照明変化などの無関係な視覚ノイズを無視することで、バックボーンはシーンの基礎となる物理と因果構造に集中できる。
**安全なメンタルシミュレーション**。世界モデルによりロボットは「想像上の」未来をシミュレートし、実際に動く前に特定の角度から物体を掴んだらどうなるかをテストできる。システムは実際のハードウェアを危険にさらすことなく、何千もの想像上の誤りから学習する。

Something-Something-V2のようなクリーンベンチマークでのSOTA精度は必要なベースラインだが、モデルの故障面について何も教えてくれない。工場のロボットや風の中のドローンにとって、関連する質問は以下の通りである。

**優雅な劣化 vs. 壊滅的劣化**。線形に劣化する特徴は下流トレーニングで回復可能か、それともシステムを脆弱にする急激な崖があるか？
**アーキテクチャの物語 vs. 現実**。V-JEPA 2.1は時間的に一貫したビデオモデルとして位置づけられている。時間的摂動下で特徴が画像ノイズよりも脆弱であるならば、「時間的」物語に基づく工学的判断は誤りとなる。
**スケーリングの近道**。20億モデルに移行することで確実にデプロイ可能性が向上するか？スケーリングが非単調であるならば、モデル選択は経験的かつアプリケーションごとに行わなければならない。

この研究はV-JEPA 2.1ファミリーに対してこれらの質問に答える。

方法論

V-JEPA 2.1は、高密度予測損失、深層自己教師あり学習、モダリティ固有トークナイザを通じて高密度特徴を導入する。エンコーダはビデオを16フレームのクリップとして取り込み、連続するフレームペアを単一の時間トークンにグループ化する。アーキテクチャはこれをチューブレットサイズ2と呼ぶ。したがって、16フレームクリップは8つの時間位置になり、それぞれが少しのフレーム間平均を運ぶ。これは後で画像ノイズがフレーム欠落よりもなぜ影響が大きいかを理解するために重要である。

評価したのは全4つのリリースサイズ：ViT-base（8000万）、ViT-large（3億）、ViT-giant（10億）、ViT-gigantic（20億）である。

セットアップ

200個のSSv2検証クリップに対して、9つの制御された摂動を10の強度レベル（s ∈ [0.1, 1.0]）で実行し、コアロバスト性曲線を構築した。その後、30個のDAVISクリップ（5摂動×5強度×4モデル）で機能的追跡劣化を測定し、表現のドリフトを実世界タスクに接地させた。

メトリクス階層

各クリップについて、エンコーダは各時間位置でパッチレベルの特徴ベクトルのグリッドを生成する。3つのメトリクスは、クリーンクリップとその摂動バージョン間でこれらの特徴がドリフトする異なる方法を測定する。

**M1（フレーム忠実度）**：クリーンと摂動で一致するパッチ間の平均コサイン距離（同じ時間、位置）。平たく言えば：「各パッチの表現はどれだけ移動したか？」低い値はエンコーダがその位置でほぼ同じ特徴を生成したことを意味し、高い値はパッチが再解釈されたことを意味する。
**M2（時間的一貫性）**：時間勾配ベクトル（パッチごとの差分特徴(t+1) - 特徴(t)）間のコサイン距離。クリーンと摂動の勾配ベクトルを比較し平均する。平たく言えば：「モデルの各位置での動きの感覚はどれだけドリフトしたか？」これはV-JEPAの核心アーキテクチャ主張（時間的一貫性）の主要プローブであり、フレーム間の変化を絶対フレーム内容から分離する。
**M3（機能的効用）**：DAVIS上のパッチ対応。モデルの特徴をマッチング信号として使用し、フレーム全体でグラウンドトゥルースのオブジェクト領域を追跡する。平たく言えば：「これらの特徴を実際に使って摂動クリップ内のオブジェクトを追跡しようとした場合、追跡はどれだけ劣化するか？」これは3つのうち、内部特徴の安定性ではなく下流タスクを測定する唯一のメトリクスである。

開始前に、明示的な数値決定ルールを持つ6つの仮説を事前登録した。これにより事後的なメトリクス調整を排除した。

サンプルサイズとシードについて

1セルあたり200のSSv2クリップはビデオベンチマークの標準範囲内（MVBench、CVRR-ESはタスクあたり200–240インスタンスを使用）であり、観察された効果量に対して十分である。全200セルにわたるセルごとのM2平均のブートストラップ95%信頼区間は一様に小さい（中央値±0.015、最大±0.025）。以下のスケーリングストーリーにおける最小のモデル間ジャンプ（オクルージョン、+0.017）は、その信頼区間半幅の5.7倍であり、信号とノイズを分離する2倍の閾値をはるかに超えている。

セルごとに単一のランダムシードを使用しており、これはImageNet-Cの先例（Hendrycks & Dietterich, 2019）に従い、リンゴ対リンゴのモデル間比較を可能にする。セルあたり200クリップでは、クリップ間分散がセル内の摂動実現分散を支配する。マルチシード実行は誤差バーを狭めるが、観察された効果の大きさを考慮すると、6つの仮説の判定を覆すことはない。

キャリブレーション：メトリクスは予測通りに機能

M2メトリクスを検証するため、逆再生入力下での動作の分析的予測を導出した：クリップを反転して最後のフレームを最初に再生すると、時間勾配ベクトルは方向を反転し、（勾配がフレーム間で病的に整列していないという一般的な仮定の下で）クリーン前方と摂動逆方向の勾配間のコサイン距離は特定の値に近づくはずである。16フレーム入力、チューブレットサイズ2の場合、その値は約1.14である。

30のDAVISクリップでViT-baseを使用したキャリブレーションでは、平均M2 = 1.020（標準偏差0.036）が得られた。全SSv2スイープでは、4モデルすべての平均が1.034から1.037の間に密に集まった。両方の数値は予測された[0.9, 1.4]の範囲内にある。DAVISキャリブレーション（n = 30）とSSv2逆セル（n = 200/モデル）の信頼区間は重ならないが、その差は小さく、おそらくDAVISのより小規模で手作業でキュレーションされたクリップ分布を反映している。メトリクスは数学が示す通りのものを測定している。

事前登録された予測に対するキャリブレーションプローブ：恒等ラウンドトリップは数値ノイズフロアにある（最大|M2| = 9.8e-9）。逆再生は全4モデルで1.034–1.037に位置し、予測された[0.9, 1.4]の範囲内で、分析的中心値1.14より約10%低い。水平反転は予測された上限0.30を反駁し、全モデルで0.91を示した（発見3を参照）。

発見1：V-JEPA 2.1の高密度特徴は分割されている

最大の発見：M2（表現の安定性）は特定の摂動クラスに対してのみ下流タスクの失敗（M3）を予測する。

| 摂動 | r(ΔM3, M2) | 95% CI | 解釈 | |------|------------|--------|------| | フレーム欠落 | +0.370 | [+0.299, +0.437] | M2がタスク失敗を予測 | | オクルージョン | +0.350 | [+0.278, +0.418] | M2がタスク失敗を予測 | | モーションブラー | +0.093 | [+0.013, +0.171] | ゼロと区別できず | | 低照度 | +0.049 | [−0.031, +0.128] | ゼロと区別できず | | ガウシアンノイズ | −0.055 | [−0.135, +0.025] | ゼロと区別できず |

時間軸摂動と画像ノイズ摂動の信頼区間は重ならない。最も近いギャップはオクルージョンの下限（+0.278）とモーションブラーの上限（+0.171）の間で、差は+0.106である。2つの摂動ファミリーは95%信頼水準で統計的に分離可能である。全体のr = 0.161（95% CI [0.126, 0.195]）はゼロと区別できるが、事前登録された曖昧閾値0.30と確認閾値0.50をはるかに下回る。

V-JEPA 2.1の特徴は2つの半独立した軸を持っているように見える：ノイズに敏感だが追跡には負荷をかけない画像コンテンツ軸と、DAVISスタイルの対応が依存する時間構造軸である。

**展開への影響**。Cable Mindでは、自己遮蔽と可変フレームレートが主なストレスであり、M2は信頼できるヘルスチェックとなる。Drone Inspectionでは、モーションブラーとセンサーノイズが支配的であり、特徴レベルの安定性メトリクスは誤解を招くため、タスクベースの評価を使用しなければならない。

発見2：大規模が必ずしも優れているわけではない

単調スケーリングの仮定に反して、ロバスト性は最大規模で横ばいまたは逆転する。すべてのTier 1摂動において、スケーリングは非単調であった：

20億「巨大」モデルは、ガウシアンノイズ（M2ジャンプ+0.038）、モーションブラー（+0.050）、低照度（+0.036）で10億「大」モデルよりロバスト性が低い。
10億「大」モデルは、フレーム欠落（+0.041）とオクルージョン（+0.017）で3億「大」バリアントよりロバスト性が低い。

5つのジャンプすべてが、プールされた信頼区間半幅の少なくとも5倍を超えている。いずれも境界ノイズではない。

1つのメカニズム的説明は、深層ViTにおける「ハブ周縁化」に関する最近の研究（arXiv:2511.21635）から来ている。簡潔に言えば、Vision Transformerでは、特別な[CLS]トークンがグローバルサマリーとして機能し、すべてのパッチからの情報が集約されることになっている。モデルが深くなり、より良く訓練されるにつれて、この単一ハブの負荷は軽減され、パッチトークン自体が情報を分散させ、1つのサマリーノードを通じてすべてをルーティングしなくなる。これは一般的に良いことだが、モデルが深くなりすぎて「過剰通信」領域に入ると、追加の層が情報を洗練する代わりに混乱させる。V-JEPA 2.1のトレーニング目的（高密度予測損失）は、各パッチトークンにローカルアイデンティティを保持させることで、単一ハブ集約に明示的に反対している。20億バリアントが過剰通信領域に入っている場合、蒸留された...（原文は打ち切られている）