Fugu-MT 論文翻訳(概要): Knowledge Reutilization in Meta-Reinforcement Learning

論文の概要: Knowledge Reutilization in Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.18132v1
Date: Tue, 16 Jun 2026 16:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.549014
Title: Knowledge Reutilization in Meta-Reinforcement Learning
Title（参考訳）: メタ強化学習における知識の活用
Authors: Yuan Meng, Bo Wang, Juan de los Rios Ruiz, Xiangtong Yao, Zhenshan Bing, Fuchun Sun, Alois Knoll,
Abstract要約: 本稿では,動的に単純化されたエージェント上でタスクレベルの知識を学習し,それを異種エージェントに転送するメタ知識再利用フレームワークを提案する。我々のフレームワークは、最新の最先端ベースラインと比較して、最終段階のトラッキングエラーを94.75% -- 99.79%削減している。
参考スコア（独自算出の注目度）: 51.07319647819108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Meta-reinforcement learning enables fast adaptation by extracting shared structure from related tasks, but existing end-to-end methods often couple task inference with embodiment-specific control. This coupling can obscure non-parametric task semantics, reduce sample efficiency, and limit cross-agent reuse. We propose a meta-knowledge reutilization framework that learns task-level knowledge on a dynamics-simplified agent and transfers it to heterogeneous agents. The framework uses a Bayesian non-parametric prior to organize latent task modes and a high-level policy to generate task-level magnitude guidance. To bridge reusable task knowledge with different embodiments, we introduce a semantic-magnitude interface and a lightweight temporal adaptor, which convert frozen meta-knowledge into temporally aligned subgoals for embodiment-specific low-level controllers. Experiments on multiple locomotion agents show that our framework reduces final-step tracking error by 94.75% -- 99.79% compared with recent state-of-the-art baselines and achieves comparable deployment performance with about 23.8% of their interaction data.
Abstract（参考訳）: メタ強化学習は、関連するタスクから共有構造を抽出することで、迅速な適応を可能にする。この結合は、非パラメトリックなタスクセマンティクスを曖昧にし、サンプル効率を低減し、エージェント間の再利用を制限する。本稿では,動的に単純化されたエージェント上でタスクレベルの知識を学習し,それを異種エージェントに転送するメタ知識再利用フレームワークを提案する。このフレームワークは、潜時タスクモードの編成に先立ってベイズ非パラメトリックを使用し、タスクレベルグレードガイダンスを生成するために高レベルポリシーを使用する。異なる実施形態で再利用可能なタスク知識をブリッジするために,凍結したメタ知識を時間的に整列したサブゴールに変換する,意味的マグニチュードインタフェースと軽量な時間的適応器を導入する。複数のロコモーションエージェントの実験によると、我々のフレームワークは最新の最先端のベースラインと比較して、最終段階のトラッキングエラーを94.75% -- 99.79%削減し、23.8%のインタラクションデータで同等なデプロイメントパフォーマンスを達成する。

関連論文リスト

An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文参考訳（メタデータ） (2024-06-10T11:33:34Z)
Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文参考訳（メタデータ） (2024-06-03T14:42:14Z)
MetaModulation: Learning Variational Feature Hierarchies for Few-Shot Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。また,変分法を取り入れた学習的変分特徴階層も導入する。
論文参考訳（メタデータ） (2023-05-17T15:47:47Z)
Learning Transferable Adversarial Robust Representations via Multi-view Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-10-19T11:48:01Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
TAG: Task-based Accumulated Gradients for Lifelong learning [21.779858050277475]
タスク間の関連性に基づいて学習率を適応させるタスク認識システムを提案する。提案する適応学習率は, 破滅的な記憶の喪失だけでなく, 正の後方移動にも寄与することを示した。
論文参考訳（メタデータ） (2021-05-11T16:10:32Z)
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文参考訳（メタデータ） (2020-06-12T13:34:46Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。