論文の概要: Latent Diffusion Policy: Shaping Latent Spaces for Diffusion-Based Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.08657v1
- Date: Sun, 07 Jun 2026 14:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.359731
- Title: Latent Diffusion Policy: Shaping Latent Spaces for Diffusion-Based Robotic Manipulation
- Title(参考訳): 潜時拡散政策 : 拡散に基づくロボットマニピュレーションのための潜時空間形成
- Authors: Zhexuan Zhou, Yichen Lai, Jinhao Zhang, Huizhe Li, Youmin Gong, Jie Mei,
- Abstract要約: 本稿では,故意に形成された潜在空間におけるフローマッチングを行うフレームワークであるLatent Diffusion Policy(LDP)を紹介する。
観測条件付きCVAEエンコーダにシーン理解を吸収することにより、LCPは各観測の条件分布に集中する。
RoboTwin 2.0のコーディネーション集約タスクでは、LDPはDP3をかなり上回り、実世界のバイマニュアルデプロイメントに効果的に転送する。
- 参考スコア(独自算出の注目度): 2.606982259886594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based visuomotor policies operating directly in raw action spaces conflate scene comprehension with trajectory generation within a single denoising process. The resulting velocity field must simultaneously encode scene information and generate precise trajectories, increasing learning complexity and limiting performance on tasks demanding precise temporal coordination across multiple arms. To simplify this joint learning problem, we introduce Latent Diffusion Policy (LDP), a two-stage framework performing flow matching in a deliberately shaped latent space. By absorbing scene understanding into an observation-conditioned CVAE encoder, LDP concentrates the conditional distribution of each observation. Consequently, the flow model avoids implicitly resolving scene-dependent structures; instead, it generates within a pre-concentrated distribution featuring a smoother velocity field, simplifying learning from limited demonstrations. Furthermore, to capture temporal dependencies among latent tokens, LDP trains with per-token diffusion forcing and employs staircase inference sampling to resolve the resulting distributional mismatch. We also propose reconstruction FID (rFID) as a lightweight proxy predicting downstream task success solely from latent space statistics. On coordination-intensive tasks from RoboTwin 2.0, LDP outperforms DP3 by a substantial margin and transfers effectively to real-world bimanual deployments.
- Abstract(参考訳): 生の行動空間で直接動作する拡散に基づくビズーモータポリシーは,1つの認知過程内での軌跡生成とシーン理解を両立させる。
得られた速度場はシーン情報を同時にエンコードして正確な軌道を生成する必要があり、学習の複雑さが増大し、複数のアームをまたいで正確な時間的調整を必要とするタスクの性能が制限される。
この共同学習問題を単純化するために,故意に形づくラテント空間でフローマッチングを行う2段階フレームワークであるLatent Diffusion Policy(LDP)を導入する。
観測条件付きCVAEエンコーダにシーン理解を吸収することにより、LCPは各観測の条件分布に集中する。
その結果、フローモデルはシーン依存構造を暗黙的に解決することを避け、代わりに、よりスムーズな速度場を備えた事前集中分布内で生成し、限られたデモンストレーションからの学習を簡素化する。
さらに,遅延トークン間の時間的依存関係を捉えるため,LDPは各トークンの拡散強制を訓練し,階段推論サンプリングを用いて結果の分布ミスマッチを解決する。
また、遅延空間統計のみから下流タスクの成功を予測する軽量プロキシとして再構成FID(rFID)を提案する。
RoboTwin 2.0のコーディネーション集約タスクでは、LDPはDP3をかなり上回り、実世界のバイマニュアルデプロイメントに効果的に転送する。
関連論文リスト
- GLIDE: Graph-guided Leap Inference for Diffusion Estimation of Spatio-Temporal Point Processes [19.756452407351986]
時空間点過程(STPP)のための条件拡散フレームワークを提案する。
GLIDEは、歴史的イベントをマルチスケールの履歴グラフに整理し、二重ストリームアーキテクチャを通して空間トポロジを符号化する。
複数の実世界のデータセットでの実験では、GLIDEは分布の適合性と次点の予測の両方を改善し、空間側で最大のゲインが現れる。
論文 参考訳(メタデータ) (2026-05-31T14:56:24Z) - Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration [3.0222726254970174]
純粋なモデルに基づくアプローチは、構造化された不確実性推定を提供するが、適応的なポリシー学習を欠いている。
本稿では,このギャップに対処するためのハイブリッドな信念強化学習フレームワークを提案する。
その結果、累積報酬は10.8%上昇し、ベースラインよりも38%早く収束した。
論文 参考訳(メタデータ) (2026-03-04T00:00:34Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - LEAR: Learning Edge-Aware Representations for Event-to-LiDAR Localization [15.308350522323588]
LEARは、エッジ構造と高密度事象深度流れ場を共同で推定し、知覚とモダリティの分断を橋渡しする。
いくつかの人気があり、挑戦的なデータセットにおいて、LEARは最高の先行メソッドよりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-03-02T13:18:25Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - CAPE: Context-Aware Diffusion Policy Via Proximal Mode Expansion for Collision Avoidance [15.311155448797386]
近位モード拡張(CAPE)による文脈対応拡散政策
CAPEは、文脈認識の事前と推論時のガイダンスで軌道分布モードを拡張する。
本研究では,多様な操作タスクに対するCAPEの評価を行った。
論文 参考訳(メタデータ) (2025-11-27T21:53:09Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Projected Coupled Diffusion for Test-Time Constrained Joint Generation [49.69610867216755]
制約付きジョイント生成のための新しいテストタイムフレームワークであるProjected Coupled Diffusion (PCD)を提案する。
PCDは、拡散モデル間の協調を促進するために生成力学に結合したガイダンス項を導入し、各拡散ステップにプロジェクションステップを組み込んで厳しい制約を強制する。
その結果,過剰な計算コストを発生させることなく,結合効果の向上と制約満足度が保証された。
論文 参考訳(メタデータ) (2025-08-14T11:05:31Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。