論文の概要: Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2606.22056v1
- Date: Sat, 20 Jun 2026 14:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:01:55.966424
- Title: Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning
- Title(参考訳): 対人模倣学習における政策回帰協調訓練の有効性
- Authors: Tian Xu, Zexuan Chen, Zhilong Zhang, Yi-Chen Li, Chenyang Wang, Lei Yuan, Yang Yu,
- Abstract要約: 行動模倣学習(AIL)は行動クローニング(BC)と比較して高品質な模倣を実現する
最近の実証研究は、この制限に対処するために、BC が事前訓練したポリシーで AIL アルゴリズムを初期化することを検討している。
本稿では,体系的な理論的解析を行い,AILの高速化のための原理的事前学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.454127729966462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial imitation learning (AIL) achieves high-quality imitation compared to behavioral cloning (BC), but demands substantial online environment interaction. Recent empirical work has explored initializing AIL algorithms with BC pretrained policies to address this limitation, yet a rigorous theoretical understanding of pretraining's role in AIL remains elusive. This paper provides a systematic theoretical analysis and introduces principled pretraining algorithms for accelerating AIL. We begin by analyzing AIL with policy pretraining alone, identifying reward error as the dominant source of suboptimality. This reveals a critical and previously overlooked gap: the absence of reward pretraining. Motivated by this finding, we develop a principled policy-reward co-pretraining approach grounded in a reward shaping analysis. Our analysis uncovers a fundamental connection between expert policies and shaping rewards, which naturally gives rise to CoPT-AIL, an approach that jointly pretrains both policy and reward through a single BC procedure. We prove that CoPT-AIL achieves an improved imitation gap bound over standard AIL, establishing the first theoretical guarantee for the benefits of pretraining in AIL. Experimental results confirm CoPT-AIL's superior performance over existing AIL methods.
- Abstract(参考訳): 逆模倣学習(AIL)は行動クローニング(BC)と比較して高品質な模倣を実現するが、かなりのオンライン環境相互作用を必要とする。
近年の実証研究は、この制限に対処するために、BC が事前訓練したポリシーで AIL アルゴリズムを初期化することを検討したが、AIL における事前訓練の役割に関する厳密な理論的理解はいまだ解明されていない。
本稿では,体系的な理論的解析を行い,AILの高速化のための原理的事前学習アルゴリズムを提案する。
まず、AILを政策事前訓練のみで分析し、報酬エラーを最適下限の主流の源とすることから始める。
これは、批判的でこれまで見過ごされていたギャップ、すなわち報酬事前訓練の欠如を明らかにします。
この発見に動機づけられた我々は、報酬形成分析に基づく原則的政策回帰協調訓練手法を開発した。
この分析によって専門家の政策と報酬形成の基本的な関係が明らかとなり、これは自然にCoPT-AILを生じさせ、これは単一のBCの手続きを通じて政策と報酬を共同で事前訓練するアプローチである。
我々は, CoPT-AIL が標準 AIL 上の改良された模倣ギャップを達成できることを証明し, AIL における事前学習の利点に関する最初の理論的保証を確立した。
CoPT-AILは既存のAIL法よりも優れた性能を示す実験結果を得た。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Provably and Practically Efficient Adversarial Imitation Learning with General Function Approximation [13.228240527941619]
最適化ベースAIL(OPT-AIL)と呼ばれる新しい手法を提案する。
OPT-AILは一般関数近似を用いた最初の証明可能なAIL法である。
実証的研究により、OPT-AILはいくつかの課題において、従来の最先端の深層AIL法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-01T14:17:38Z) - LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。