論文の概要: Spatially Conditioned Diffusion Policy: Learning Precise and Robust Manipulation with a Single RGB Camera
- arxiv url: http://arxiv.org/abs/2606.14535v1
- Date: Fri, 12 Jun 2026 15:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.9538
- Title: Spatially Conditioned Diffusion Policy: Learning Precise and Robust Manipulation with a Single RGB Camera
- Title(参考訳): 空間条件付き拡散政策:単一RGBカメラによる高精度・ロバスト操作の学習
- Authors: Seoyoon Kim, Kanghyun Kim, Dongwoo Ko, Yeong Jin Heo, Min Jun Kim,
- Abstract要約: 空間条件拡散政策(Spatially Conditioned Diffusion Policy, SCDP)は、単一カメラ環境における精密かつ堅牢な操作を実現する拡散型ビズモータ政策である。
SCDPは2つの重要なコンポーネントから構成される: (i) 広義のコンテキストときめ細かな視覚特徴の両方を捉えるマルチスケールの特徴マップを生成するビジュアルエンコーダ、 (ii) 拡散ループの中間端エフェクタ軌道に沿って点方向の特徴をサンプリングする空間条件モジュール。
- 参考スコア(独自算出の注目度): 6.648702147742411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent visual imitation learning systems have widely adopted multi-camera setups with wrist-mounted cameras as the de facto standard. However, manipulation from a single global view remains challenging, as the policy should capture fine-grained interaction details and identify task-relevant regions without local wrist views. To address this challenge, we present Spatially Conditioned Diffusion Policy (SCDP), a diffusion-based visuomotor policy that achieves precise and robust manipulation in a single-camera setting. Our key idea is that end-effector trajectories can serve as visual attention anchors that reflect task-relevant regions. Building on this idea, SCDP consists of two key components: (i) a visual encoder that produces multi-scale feature maps to capture both broader context and fine-grained visual features, and (ii) a spatial conditioning module that samples point-wise features along intermediate end-effector trajectories in the diffusion loop. Extensive simulation experiments show that SCDP consistently outperforms strong single-view baselines and achieves performance comparable to multi-camera baselines. Real-world experiments further demonstrate precise manipulation and robustness to visual distractors, highlighting the potential of single-camera imitation learning.
- Abstract(参考訳): 近年の視覚模倣学習システムは、手首搭載カメラを用いたマルチカメラをデファクトスタンダードとして広く採用している。
しかし、このポリシーは細かなインタラクションの詳細を捉え、局所的な手首ビューのないタスク関連領域を特定するべきであるため、単一のグローバルビューからの操作は依然として困難である。
この課題に対処するため,単一カメラ環境での高精度かつ堅牢な操作を実現する拡散型ビジュモータ政策である空間条件拡散政策(SCDP)を提案する。
私たちのキーとなる考え方は、エンドエフェクタ軌道はタスク関連領域を反映した視覚的アテンションアンカーとして機能する、ということです。
このアイデアに基づいて、SCDPは2つの重要なコンポーネントから構成される。
(i)広義のコンテキストときめ細かい視覚的特徴の両方を捉えたマルチスケール特徴マップを作成するビジュアルエンコーダ
(2)拡散ループの中間端エフェクター軌道に沿って点方向の特徴をサンプリングする空間調和モジュール。
大規模なシミュレーション実験により、SCDPは強いシングルビューベースラインを一貫して上回り、マルチカメラベースラインに匹敵する性能を達成することが示された。
実世界の実験はさらに、視覚的障害に対する正確な操作と堅牢性を示し、シングルカメラ模倣学習の可能性を強調している。
関連論文リスト
- Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning [57.88781687419521]
複数の同期カメラパースペクティブを使用して、各専門家軌跡から擬似演示を生成する。
シミュレーションと実世界の操作タスクの実験は、データ効率と一般化の著しい向上を示している。
以上の結果から,カメラビューのスケーリングは,模倣学習のための実用的でスケーラブルなソリューションであることが示唆された。
論文 参考訳(メタデータ) (2026-04-01T07:00:44Z) - UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - RS-ISRefiner: Towards Better Adapting Vision Foundation Models for Interactive Segmentation of Remote Sensing Images [17.648922817109224]
RS-ISRefinerは、リモートセンシング画像に適したクリックベースのIISフレームワークである。
セグメンテーション精度、効率、相互作用コストの点で、最先端IIS法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-30T04:12:43Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。