Fugu-MT 論文翻訳(概要): RE4: Transformation-aware Imitation of Object Interactions Using Manipulation Modes

論文の概要: RE4: Transformation-aware Imitation of Object Interactions Using Manipulation Modes

arxiv url: http://arxiv.org/abs/2606.24403v1
Date: Tue, 23 Jun 2026 10:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.901975
Title: RE4: Transformation-aware Imitation of Object Interactions Using Manipulation Modes
Title（参考訳）: RE4: 操作モードを用いたオブジェクトインタラクションの変換を考慮した模倣
Authors: Arsh Chawla, Rahul Shome,
Abstract要約: 本稿では,オブジェクトインタラクションのための現代的な模倣学習ベンチマークについて再検討する。本稿では,操作の原理的理論を再利用し,性能と解釈可能性の両立を図る枠組みを提案する。
参考スコア（独自算出の注目度）: 7.605814048051736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object interaction tasks have been a focus of advances in imitation learning. End-to-end methods, dominated by diffusion and flow-based variants have shown leaps in performance while sacrificing interpretability. Object-centric and pose-informed variants have had a role in learning from demonstration in manipulation tasks. In this paper, we revisit a few modern imitation learning benchmarks for object interactions, with the aim of composing a framework that repurposes principled theories of manipulation, preserving both performance and interpretability. For image observations, lightweight training is proposed for model-free pose estimation of the target object, using self-supervision over the demonstration data available for imitation learning. This information is then used to inform a manipulation mode-aware retrieval of a demonstration, a mode-aware transformation, a replan step that connects to the retrieval point while preserving mode constraints, and finally rolling out the transformed demonstration. These compose four key steps of the proposed RE4 framework, evaluated over state-based and image-based benchmarks in Push-T and Robomimic. An adversarial benchmark that evaluates sparse data regions of image-based Push-T showcases the robustness, further bolstered by indications from low-data regime experiments. The current work shows promise in using simple interpretable building blocks to learn manipulation skills.
Abstract（参考訳）: オブジェクトインタラクションタスクは、模倣学習の進歩の焦点となっている。拡散とフローベースの変種に支配されるエンドツーエンドの手法は、解釈性を犠牲にして性能を飛躍的に向上させてきた。オブジェクト指向とポーズインフォームドの亜種は、操作タスクのデモンストレーションから学ぶ上で重要な役割を果たしてきた。本稿では、操作の原理的理論を再利用し、性能と解釈可能性の両方を保ったフレームワークを構築することを目的として、オブジェクトインタラクションのための現代の模倣学習ベンチマークをいくつか再検討する。画像観察のために,模擬学習に利用可能な実演データに対する自己監督を用いて,対象対象物のモデルなしポーズ推定のための軽量なトレーニングを提案する。そして、この情報を用いて、デモの操作モード認識検索、モード認識変換、モード制約を保ちながら検索ポイントに接続する再計画ステップ、そして最終的に変換されたデモをロールアウトする。これらは、Push-TとRoomimicのステートベースおよびイメージベースベンチマークで評価されたRE4フレームワークの4つの重要なステップを構成する。画像ベースPush-Tのスパースデータ領域を評価する逆ベンチマークでは、ロバスト性を示す。現在の研究は、単純な解釈可能なビルディングブロックを使って操作スキルを学ぶことを約束している。

関連論文リスト

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning [13.411096520754507]
既存のビデオキャプション手法は、単にオブジェクトの振舞いの浅いあるいは単純化した表現を提供するだけである。本稿では,オブジェクトの振る舞いの本質を包括的に把握する動的アクション意味認識グラフ変換器を提案する。
論文参考訳（メタデータ） (2025-02-19T14:16:47Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Visual Grounding with Attention-Driven Constraint Balancing [19.30650183073788]
本稿では,言語関連領域における視覚的特徴の挙動を最適化するために,注意駆動制約バランス(AttBalance)を提案する。 4つの異なるベンチマークで評価された5つの異なるモデルに対して、一定の改善が達成される。 QRNetにメソッドを統合することにより,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-07-03T16:14:09Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
Fusing Local Similarities for Retrieval-based 3D Orientation Estimation of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文参考訳（メタデータ） (2022-03-16T08:53:00Z)
Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文参考訳（メタデータ） (2021-01-16T23:44:09Z)
Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文参考訳（メタデータ） (2020-07-15T15:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。