論文の概要: Sensorimotor World Models: Perception for Action via Inverse Dynamics
- arxiv url: http://arxiv.org/abs/2606.20104v1
- Date: Thu, 18 Jun 2026 11:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.821344
- Title: Sensorimotor World Models: Perception for Action via Inverse Dynamics
- Title(参考訳): センサモレータ世界モデル:逆ダイナミクスによる行動の知覚
- Authors: Petr Ivashkov, Randall Balestriero, Bernhard Schölkopf,
- Abstract要約: Inverse dynamics regularization で訓練されたエンド・ツー・エンドのセンサモレータ・ワールドモデルを導入する。
表現の崩壊を防ぎ、アクション整列表現を誘導する。
コンパクトで解釈可能な潜在空間を学習し、単純な2Dおよび3D制御タスク間の競合計画性能を実現する。
- 参考スコア(独自算出の注目度): 59.121736411156384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perception for action suggests that representations of the world should be shaped not by visual fidelity alone, but by their relevance for actions. At the same time, latent JEPA-style world models advocate learning compact predictive states from high-dimensional observations to facilitate the prediction of future states, but end-to-end training of these models is nontrivial because representations may collapse if our only goal is to construct a latent state that is easy to predict. We introduce a sensorimotor world model (SMWM): a latent world model trained end-to-end with inverse dynamics regularization. This single regularizer addresses both issues: it prevents representation collapse and induces action-aligned representations. By forcing latent states to preserve information about the action underlying a transition, it biases the model toward the controllable degrees of freedom of the environment while discarding uncontrollable distractors. This yields stable latent world models trained from offline, reward-free trajectories, without frozen encoders, exponential moving averages, or complex latent regularizers. Empirically, SMWM learns compact, interpretable latent spaces and enables competitive planning performance across simple 2D and 3D control tasks.
- Abstract(参考訳): 行動の知覚は、世界の表現は、視覚的忠実性だけでなく、行動への関連性によって形成されるべきであることを示している。
同時に、潜在JEPAスタイルの世界モデルは、将来の状態の予測を促進するために高次元観測からコンパクトな予測状態を学習することを提唱するが、これらのモデルのエンドツーエンドのトレーニングは、予測が容易な潜在状態を構築することが唯一の目標であるならば、表現が崩壊する可能性があるため、簡単ではない。
Inverse dynamics regularization で訓練された潜在世界モデルであるSensorimotor World Model (SMWM)を紹介する。
この単一正規化器は2つの問題に対処する: 表現の崩壊を防ぎ、アクション整列表現を誘導する。
潜伏状態に移行の根底にある行動に関する情報を保持するよう強制することで、制御不能な妨害者を排除しながら、制御不能な環境の自由度に向けてモデルをバイアスする。
これにより、オフラインで無報酬の軌道から訓練された安定な潜伏世界モデルが、凍結エンコーダ、指数的な移動平均、複雑な潜伏正規化器なしで得られる。
経験的に、SMWMはコンパクトで解釈可能な潜在空間を学習し、単純な2Dおよび3D制御タスク間の競合計画性能を実現する。
関連論文リスト
- Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations [35.521396983843864]
本稿では,基礎モデル埋め込みをコンパクトでタスクに適した世界表現に変換するためのフレームワークを提案する。
TC-WM は、動的空間としてコンパクトなラテントに高次元の視覚的埋め込みを射影する。
TC-WMは、タスク中心の潜在要因を単純な変換まで特定するのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-25T09:21:43Z) - The DAWN of World-Action Interactive Models [30.798493550954703]
世界予測と行動生成は、孤立した並列分岐または厳格な予測理論計画パイプラインとして扱われる。
textbfDAWN (textbfDenoising textbfActions and textbfWorld itextbfNteractive model) は単純だが強力な遅延生成ベースラインである。
DAWNは、複数の自律運転ベンチマークで強い計画性能と良好な安全関連結果を達成する。
論文 参考訳(メタデータ) (2026-05-12T05:30:00Z) - HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - LaWM: Least Action World Models for Long-Horizon Physical Consistency from Visual Observations [9.35652906982887]
学習された視覚的潜伏空間における最小アクションの原理を運用するためのラストアクション世界モデル(LaWM)を提案する。
LaWMは、学習された一般化された座標に観測を符号化し、連続的な潜伏状態上で潜在離散ラグランジアンを学ぶ。
遷移は離散的な変動原理によって誘導されるため、LaWMは長期の視覚予測のための構造保存バイアスを提供する。
論文 参考訳(メタデータ) (2026-05-08T07:03:13Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-19T17:33:31Z) - Simplifying Latent Dynamics with Softly State-Invariant World Models [10.722955763425228]
エージェントの動作をより予測可能なものにするために、潜時力学を規則化する世界モデルであるParsimonious Latent Space Model (PLSM)を導入する。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
論文 参考訳(メタデータ) (2024-01-31T13:52:11Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。