論文の概要: EPM-JEPA: Operator-Side Experience Modulation in JEPA-Family World Models
- arxiv url: http://arxiv.org/abs/2606.12979v1
- Date: Thu, 11 Jun 2026 07:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.631835
- Title: EPM-JEPA: Operator-Side Experience Modulation in JEPA-Family World Models
- Title(参考訳): EPM-JEPA:JEPA-Family World Modelにおけるオペレータサイドエクスペリエンスの変調
- Authors: Vedant Pandya,
- Abstract要約: JEPAファミリーの世界モデルは、テスト時間ダイナミクスがトレーニングから分岐するときにウェイトが適応しない静的予測器を使用する。
分配シフト中のJEPA予測器に蓄積した経験を組み込むための2つのメカニズムを比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: JEPA-family world models use a static predictor whose weights do not adapt when test-time dynamics diverge from training. We compare two mechanisms for incorporating accumulated experience into a JEPA predictor under distribution shift: operand-side injection, where a compressed experience representation is added as a residual to the predictor's hidden state (EI-JEPA), and operator-side modulation, where the same representation generates low-rank weight deltas via LoRA applied to the predictor's weights (EPM-JEPA). On a pre-registered comparison (Moving MNIST, gravity shift), EPM-JEPA (D_shift^{n=50} = 0.7848 +/- 0.0078, three seeds) differs from EI-JEPA (0.8238) by delta = 4.74% - Outcome C: a null result - by our stated criterion, a valid outcome. As a secondary, non-pre-registered observation, EPM-JEPA improves 1.90% over a no-memory baseline (0.8000), consistently across seeds, while EI-JEPA underperforms the baseline, indicating the benefit is specific to weight-level modulation. Our primary contribution is a mechanism analysis: the D_shift^{n=50} trajectory reflects three independent dynamical processes - buffer cycling, EMA target drift, and an intrinsic LoRA settling transient of +0.021 - rather than convergence to equilibrium. These findings motivate PEM-JEPA, a physics-grounded successor addressing this dynamical-peak limitation.
- Abstract(参考訳): JEPAファミリーの世界モデルは、テスト時間ダイナミクスがトレーニングから分岐するときにウェイトが適応しない静的予測器を使用する。
我々は,JEPA予測器に蓄積した経験を分配シフトに組み込む2つのメカニズムを比較する:オペランドサイドインジェクション,圧縮された経験表現を予測器の隠れ状態(EI-JEPA)の残余として付加する操作側インジェクション,そして,同じ表現が予測器の重み(EPM-JEPA)に適用されたローランク重量デルタを生成する演算子側変調。
事前登録された比較(MNIST, 重力シフト)では, EPM-JEPA (D_shift^{n=50} = 0.7848 +/- 0.0078, 3種) とデルタ = 4.74% で EI-JEPA (0.8238) とが異なる。
二次的、未登録の観察として、EPM-JEPAは無記憶のベースライン(0.8000)よりも1.90%改善し、EI-JEPAはベースラインを過小評価する。
D_shift^{n=50}軌道は, 平衡収束ではなく, 緩衝サイクル, EMAターゲットドリフト, 内在性LoRA沈降過度+0.021の3つの独立な動的過程を反映する。
これらの知見は、この動的ピーク制限に対処する物理基底の後継者であるPEM-JEPAを動機付けている。
関連論文リスト
- UWM-JEPA: Predictive World Models That Imagine in Belief Space [0.2864713389096699]
本稿では,JEPAの世界モデルであるUnitary World Model JEPAを紹介した。
この構造はロールアウト中に関節状態スペクトルを正確に保存するため、予測器自体が表現された不確かさを解消することはできない。
JEPAの世界モデルでは、部分的な可観測性、潜伏幾何学、予測力学が重要であり、フリーズされたコンテキストエンコーディング能力だけではありません。
論文 参考訳(メタデータ) (2026-05-25T00:28:51Z) - Factorized Latent Dynamics for Video JEPA: An Empirical Study of Auxiliary Objectives [0.0]
JEPA(Joint-Embedding Predictive Architectures)は、自己教師型ビデオ表現学習のための有望なフレームワークである。
我々は,2つの事前訓練体制におけるビデオJEPAの18種類の補助的目的変動について,小規模な実証的研究を行った。
論文 参考訳(メタデータ) (2026-05-16T21:30:51Z) - EVA-0: Test-Time Model Evolution with Only Two Forward Passes per Sample [55.284129005947484]
厳格な2方向予算の下でテスト時間モデルの進化について検討する。
ゼロオーダーテストタイム最適化における3つの重要な障害を明らかにする。
最小零階適応フレームワーク EVA-0 を提案する。
論文 参考訳(メタデータ) (2026-05-15T09:26:02Z) - Clin-JEPA: A Multi-Phase Co-Training Framework for Joint-Embedding Predictive Pretraining on EHR Patient Trajectories [7.992399976910451]
Clin-JEPAは、HR患者軌道上での予測(JEPA)事前トレーニングのための多相コトレーニングフレームワークである。
MIMIC-IV ICUデータでは、3つの独立した評価がフレームワークをサポートしている。
論文 参考訳(メタデータ) (2026-05-11T16:54:23Z) - SCI: An Equilibrium for Signal Intelligence [0.0]
本稿では,解釈可能性の制御状態としてモデル化する制御理論フレームワークであるSCIを提案する。
SCIは解釈誤差DeltaSPを定式化し、[0,1]のSP(t)を目標に向かってアクティブに駆動する。
論文 参考訳(メタデータ) (2025-11-15T14:48:17Z) - LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics [53.247652209132376]
JEPA(Joint-Embedding Predictive Architectures)は、有望な青写真を提供するが、実践的なガイダンスや理論の欠如がアドホックな研究開発につながっている。
我々はJEPAの包括的な理論を示し、それをbf LeJEPAでインスタンス化する。
論文 参考訳(メタデータ) (2025-11-11T18:21:55Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - DC-Solver: Improving Predictor-Corrector Diffusion Sampler via Dynamic Compensation [68.55191764622525]
拡散モデル(DPM)は、視覚合成において顕著な性能を示すが、サンプリング中に複数の評価を必要とするため、計算コストが高い。
最近の予測器合成・拡散サンプリング装置は,要求される評価回数を大幅に削減したが,本質的には誤調整の問題に悩まされている。
我々はDC-CPRrと呼ばれる新しい高速DPMサンプリング装置を導入する。
論文 参考訳(メタデータ) (2024-09-05T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。