論文の概要: Do as the Romans Do: Learning Universal Behaviors from Heterogeneous Agents
- arxiv url: http://arxiv.org/abs/2606.18537v1
- Date: Tue, 16 Jun 2026 23:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.930775
- Title: Do as the Romans Do: Learning Universal Behaviors from Heterogeneous Agents
- Title(参考訳): ローマ人がするように:不均一なエージェントから普遍的な行動を学ぶ
- Authors: Caleb Chang, Davin Win Kyi, Natasha Jaques, Karen Leung,
- Abstract要約: General Reward Inference and Disentanglement (GRID)は、異種集団から普遍的に有用な行動を抽出する社会学習手法である。
GRIDは、エージェントごとの報酬関数を一般的な報酬に分解し、すべてのエージェント間で共有される行動と特定の報酬をキャプチャし、個人の好みと目的をキャプチャする。
実験では、GRIDが意味のある方法で報酬構造を切断し、実証ベースラインから標準学習を上回り、より効率的で安定した特殊化を可能にした。
- 参考スコア(独自算出の注目度): 12.076523128886885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans often acquire new skills by observing others, since observed behaviors implicitly reveal how to act in an environment. However, observations drawn from a heterogeneous population introduce conflicting behavioral signals, making it difficult to determine which behaviors are worth imitating. We address this challenge with General Reward Inference and Disentanglement (GRID), a social learning method that extracts universally useful behaviors from a heterogeneous population of demonstrators pursuing different goals. GRID decomposes per-agent reward functions into a general reward, capturing behaviors shared across all agents, and specific rewards, capturing individual preferences and objectives. Training exclusively on the general reward provides a new paradigm of generalist pretraining. It yields a generalist agent that internalizes universal environmental competencies, such as safety and basic task proficiency, without the mode-averaging bias that afflicts standard learning from demonstration techniques. This generalist serves as a superior prior for fine-tuning to downstream tasks, including preferences unseen during training. Experiments across a synthetic basis function decomposition, multi-agent Craftax, and a continuous autonomous driving simulator (Highway-Env) confirm that GRID successfully disentangles reward structure in a semantically meaningful way, outperforms standard learning from demonstration baselines, and enables more efficient and stable specialization.
- Abstract(参考訳): 人間は、観察された行動が環境の中でどのように振る舞うかを暗黙的に明らかにするため、他の人を観察して新しいスキルを得ることが多い。
しかし、異種集団から引き出された観察は、相反する行動信号を導入し、どの行動が模倣に値するかを判断することは困難である。
我々は,様々な目標を追求するデモ参加者の異種集団から,普遍的に有用な行動を抽出する社会学習手法であるジェネラル・リワード推論・ディスタングルメント(GRID)を用いて,この問題に対処する。
GRIDは、エージェントごとの報酬関数を一般的な報酬に分解し、すべてのエージェント間で共有される行動と特定の報酬をキャプチャし、個人の好みと目的をキャプチャする。
一般報酬のみのトレーニングは、ジェネラリスト事前訓練の新しいパラダイムを提供する。
安全や基本的なタスク習熟度などの普遍的な環境能力を内包するジェネラリストエージェントを、実証技術から標準学習を伴わないモード改善バイアスなしで得る。
このジェネラリストは、訓練中に見つからない好みを含む、下流のタスクを微調整する上で、優れた先駆者として機能する。
合成基底関数分解、マルチエージェントクラフト、および連続自律運転シミュレータ(Highway-Env)にわたる実験により、GRIDが意味論的に意味のある方法で報酬構造を切断し、実証ベースラインから標準学習を上回り、より効率的で安定した特殊化を可能にすることを確認した。
関連論文リスト
- Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。
本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。
トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。
このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2025-10-15T09:47:54Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning via Incorporating Generalized Human Expertise [6.441011477647557]
マルチエージェント強化学習(MARL)の効率的な探索は、チーム報酬のみを受け取る場合の課題である。
この問題を緩和するための強力な方法は、エージェントを効率的な探索へと導くために、密集した個人報酬を作成することである。
本稿では,MARLアルゴリズムに人間の知識をエンドツーエンドで組み込む新しいフレームワーク LIGHT を提案する。
論文 参考訳(メタデータ) (2025-07-25T00:59:10Z) - Supervised Reward Inference [27.266579554754948]
教師付き学習は,任意の行動から報酬関数を推論する統一的なフレームワークを提供する。
ロボット操作のシミュレーション実験により, 任意の準最適実験から効率よく報酬を推測できることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T18:42:05Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Versatile Inverse Reinforcement Learning via Cumulative Rewards [22.56145954060092]
逆強化学習は、専門家の行動と意図を符号化することを目的として、専門家のデモンストレーションから報酬関数を推論する。
本稿では,得られた報酬を反復訓練された識別器の和として定式化し,これらの問題を克服する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2021-11-15T10:49:15Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。