論文の概要: Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities
- arxiv url: http://arxiv.org/abs/2606.15514v1
- Date: Sat, 13 Jun 2026 23:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.668434
- Title: Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities
- Title(参考訳): ロバストなマルチモーダル模倣学習のためのソフトフュージョンを用いた強化学習型検索
- Authors: Hassan Ismkhan, Hamid Bouchahcia,
- Abstract要約: 本稿では,模倣学習のための強化学習指導法であるRL4ILを紹介する。
トレーニングライブラリから、最も関連する専門家のデモンストレーションを特定することで、与えられた観察に最も適したアクションを選択する。
3つのLIBEROベンチマークスイートの実験により、RL4ILは最先端の模倣学習法を大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera
- Abstract(参考訳): ロボットシステムは、視覚カメラストリームや自然言語命令を含む複数の入力モダリティを通じて世界を知覚し、これらの信号に基づいて適切なアクションを選択する必要がある。
しかし、すべての入力デバイスが永久に利用可能であると仮定すると、センサーが故障したり、閉鎖されたり、配置中に完全に停止する可能性があるため、現実的ではない。
このようなモダリティの欠如に対するロバストな扱いは、現実のロボット操作には不可欠である。
本稿では、学習ライブラリから最も関連性の高い専門家のデモンストレーションを識別することで、与えられた観察に最も適した行動を選択する、模倣学習のための強化学習ガイド手法であるRL4ILを紹介する。
Breadth-First Search候補セットに対する近似ポリシー最適化を通じて訓練された強化学習ポリシでは、候補をランク付けし、ソフトクロスアテンション融合ヘッドがアクションシグナルを集約し、最終的な予測を生成する。
推論時にモダリティが欠落している場合、専用モードごとのRL検索ポリシーは、トレーニングライブラリからのドナーのデモンストレーションを特定し、ソフトインプットヘッドは、システムの再トレーニングを必要とせずに、上位ドナーへのクロスアテンションによって、欠落した埋め込みを再構築する。
3つのLIBEROベンチマークスイートの実験では、RL4ILはセンサドロップアウト条件下での最先端の模倣学習方法よりも大幅に優れており、ポリシネットワークのトレーニングは不要である。
コードはhttps://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera にある。
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning [0.688204255655161]
本稿では,実演を取り入れたロボットタスクの学習を目的とした,探索効率の高い深層強化学習と参照ポリシ(DRLR)フレームワークを提案する。
DRLRフレームワークはImitation Bootstrapped Reinforcement Learning (IBRL)と呼ばれるアルゴリズムに基づいて開発されている。
論文 参考訳(メタデータ) (2025-09-04T10:02:32Z) - Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Memory-Consistent Neural Networks for Imitation Learning [19.849671682644104]
模倣学習は、代替アプローチに比べてポリシー合成をかなり単純化する。
トレーニングサンプルから外れたエラーは、このような模倣ポリシーにとって特に重要だ。
合成誤差現象に対応するモデルクラスを設計する。
論文 参考訳(メタデータ) (2023-10-09T21:49:48Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。