論文の概要: Temporal Self-Imitation Learning
- arxiv url: http://arxiv.org/abs/2606.19752v2
- Date: Fri, 19 Jun 2026 03:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.025345
- Title: Temporal Self-Imitation Learning
- Title(参考訳): 時間的自己刺激学習
- Authors: Yinsen Jia, Boyuan Chen,
- Abstract要約: 時間効率自体は、強化学習のための強力で未使用の自己超越源を提供する。
本稿では,学習中に発生する時間的に効率の良い軌道をマイニングする強化学習フレームワークであるTSILを紹介する。
- 参考スコア(独自算出の注目度): 2.439234037209868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon robot manipulation policies trained with reward shaping can still achieve high return through inefficient interactions, while rare efficient behaviors discovered during training may be forgotten. We argue that temporal efficiency itself provides a powerful and underutilized source of self-supervision for reinforcement learning. We introduce Temporal Self-Imitation Learning (TSIL), a reinforcement learning framework that mines temporally efficient successful trajectories generated during learning and converts them into reusable supervision for future policy improvement. TSIL progressively refines learning using configuration-conditioned adaptive temporal targets derived from fast successful trajectories, while preserving and replaying efficient behaviors through efficiency-weighted self-imitation learning. Across 15 distinct long-horizon manipulation tasks, TSIL consistently improves learning efficiency, task-completion efficiency, revisitation of fast successful behaviors, and robustness to unstable training conditions. More broadly, our results suggest that the temporal structure of successful behavior itself provides a scalable self-supervisory signal for reinforcement learning beyond manually engineered reward shaping alone.
- Abstract(参考訳): 報酬形成で訓練されたロングホライゾンロボット操作ポリシーは、非効率な相互作用を通じて高いリターンを達成することができるが、トレーニング中に発見された稀な効率的な行動は忘れ去られる可能性がある。
我々は、時間効率自体が強化学習のための強力で未利用な自己超越の源となっていると論じる。
本研究では,学習中に発生する時間的に効率の良い軌道をマイニングする強化学習フレームワークであるTSILを導入し,今後の政策改善のための再利用可能な監視に転換する。
TSILは、高速に成功した軌道から導かれる構成条件付き適応的時間的目標を用いて学習を段階的に洗練し、効率の重み付けされた自己イメージ学習を通じて効率的な行動の保存と再生を行う。
15の異なる長距離操作タスクにまたがって、TSILは学習効率、タスク補完効率、高速な動作の見直し、不安定な訓練条件に対する堅牢性を継続的に改善する。
より広範に、我々の結果は、成功行動の時間的構造自体が、手作業による報酬形成以外の強化学習のためのスケーラブルな自己超越的な信号を提供することを示唆している。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Simultaneously Updating All Persistence Values in Reinforcement Learning [40.10326490326968]
強化学習では、学習エージェントの性能は時間的離散化の選択に敏感である。
本研究は,低パーシステンス体験と高パーシステンス体験の両方を効果的に活用できる小説『All-Persistence Bellman Operator』を創出する。
論文 参考訳(メタデータ) (2022-11-21T16:22:57Z) - Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-14T11:12:07Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。