論文の概要: Difference-Aware Retrieval Policies for Imitation Learning
- arxiv url: http://arxiv.org/abs/2606.09758v1
- Date: Mon, 08 Jun 2026 17:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.58805
- Title: Difference-Aware Retrieval Policies for Imitation Learning
- Title(参考訳): 模倣学習のための差分対応検索法
- Authors: Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta,
- Abstract要約: 行動クローニングによるパラメトリック模倣学習は、一般化の低さからアウト・オブ・ディストリビューション状態に悩まされる。
半パラメトリック検索に基づく模倣学習手法により、推論中にトレーニングデータを再利用することで、この課題を軽減できることを示す。
本稿では,半パラメトリック検索に基づく模倣学習手法であるDARPについて述べる。
- 参考スコア(独自算出の注目度): 8.909659724448819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parametric imitation learning via behavior cloning can suffer from poor generalization to out-of-distribution states due to compounding errors during deployment. We show that reusing the training data during inference via a semi-parametric retrieval-based imitation learning approach can alleviate this challenge. We present Difference-Aware Retrieval Policies for Imitation Learning (DARP), a semi-parametric retrieval-based imitation learning approach that addresses this limitation by reparameterizing the imitation learning problem in terms of local neighborhood structure rather than direct state-to-action mappings. Instead of learning a global policy, DARP trains a model to predict actions based on $k$-nearest neighbors from expert demonstrations, their corresponding actions, and the relative distance vectors between neighbor states and query states. DARP requires no additional assumptions beyond those made for standard behavior cloning -- it does not require additional data collection, online expert feedback, or task-specific knowledge. We demonstrate consistent performance improvements of 15-46% over standard behavior cloning across diverse domains, including continuous control and robotic manipulation, and across different representations, including high-dimensional visual features. Code and demos are available at https://weirdlabuw.github.io/darp-site/.
- Abstract(参考訳): 行動クローニングによるパラメトリックな模倣学習は、デプロイ中に複雑なエラーが発生したために、一般化が不十分な状態からアウト・オブ・ディストリビューション状態に陥る可能性がある。
半パラメトリック検索に基づく模倣学習手法により、推論中にトレーニングデータを再利用することで、この課題を軽減できることを示す。
本研究では,この制限に対処する半パラメトリック検索に基づく模擬学習手法であるDARPについて,直接状態から行動へのマッピングではなく,局所的近傍構造による模擬学習問題をパラメータ化することによって提案する。
DARPは、グローバルポリシーを学ぶ代わりに、専門家のデモンストレーションや対応するアクション、隣国とクエリ状態の間の相対距離ベクトルから、$k$-nearestの隣人のアクションを予測するモデルを訓練する。
DARPは、標準のビヘイビアクローンのために作られたもの以外に、追加の仮定を必要としない。
連続的な制御やロボット操作,高次元視覚的特徴を含むさまざまな表現を含む,さまざまな領域にわたる標準的な行動クローンよりも15~46%の連続的な性能向上を示す。
コードとデモはhttps://weirdlabuw.github.io/darp-site/.comで公開されている。
関連論文リスト
- Scalable Data Attribution via Forward-Only Test-Time Inference [3.5466521714943138]
データ属性は、モデルを形作ったトレーニング例に遡る。
同一の1次対物目標を保存するデータ属性法を提案する。
提案手法は,大規模事前学習モデルにおける実時間データ属性の理論的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-25T00:11:39Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Get Back Here: Robust Imitation by Return-to-Distribution Planning [43.26690674765619]
我々は、実際のデプロイメント環境でではなく、別のバージョンで専門家データを収集するImitation Learning (IL)のセットアップについて検討する。
結果の分布シフトに対処するため,エージェントがデモンストレーション分布から逸脱するたびに,エージェントを専門家が訪れた状態に戻すことを任務とする行動クローニング(BC)とプランナーを組み合わせる。
結果のアルゴリズムPOIRはオフラインでトレーニングでき、オンラインインタラクションを活用してプランナーを効率よく微調整し、時間とともにパフォーマンスを向上する。
論文 参考訳(メタデータ) (2023-05-02T13:19:08Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning [2.0646127669654826]
一般的な表現学習手法が失敗する原因となるデータの特性について検討する。
特に、状態が著しく重複しない環境では、可変オートエンコーダ(VAE)は有用な特徴を学習できない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-12T10:20:43Z) - Causal Imitation Learning under Temporally Correlated Noise [39.4969161422156]
我々は,専門家行動における時間的相関ノイズによって劣化したポリシーデータから模倣学習を行うアルゴリズムを開発した。
特に,シミュレータへのアクセスを利用可能な生成モデルフレーバー(DoubIL)と,完全にオフラインで実行できるゲーム理論フレーバー(ResiduIL)の2つの手法を提案する。
論文 参考訳(メタデータ) (2022-02-02T22:33:08Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。