Fugu-MT 論文翻訳(概要): Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

論文の概要: Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution

arxiv url: http://arxiv.org/abs/2606.20014v1
Date: Thu, 18 Jun 2026 09:47:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.777098
Title: Hierarchical Control in Multi-Agent Games: LLM-based Planning and RL Execution
Title（参考訳）: マルチエージェントゲームにおける階層制御: LLMに基づく計画とRL実行
Authors: Jannik Hösch, Alessandro Sestini, Florian Fuchs, Amir Baghi, Joakim Bergdahl, Konrad Tollmar, Jean-Philippe Barrette-LaPierre, Linus Gisslén,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定において高いパフォーマンスを達成している。本稿では,事前訓練された大規模言語モデル (LLM) が中心的戦略制御系として機能する階層型アーキテクチャを提案する。我々は,このハイブリッドシステムを,行動木(BT)とemphFlat''のRLに対して,競争力のある2v2 King of the Hill環境において評価した。
参考スコア（独自算出の注目度）: 33.648826376348985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has achieved strong performance in sequential decision-making, yet scaling to complex multi-agent environments remains challenging due to sparse rewards, large state-action spaces, and the difficulty of learning coordinated strategies. We propose a hierarchical architecture where a pretrained large language model (LLM) acts as a centralized strategic controller that selects among specialized RL skill policies for a team of agents, while RL policies handle reactive low-level execution. We evaluate this hybrid system in a competitive 2v2 King of the Hill environment against behavior tree (BT) and \emph{``Flat''} RL (end-to-end training without skill decomposition) baselines. The LLM+RL system achieves task performance statistically equivalent to hand-crafted BT (46.4\% vs 51.5\% win rate, $p=0.103$) while both significantly outperform Flat RL trained without skill decomposition. A user study ($n=15$) reveals that 60\% of participants perceive LLM+RL agents as the most human-like ($p=0.027$), citing behavioral adaptability and tactical variability. These results demonstrate that pretrained LLM reasoning can effectively orchestrate pretrained RL skills, achieving competitive multi-agent coordination and superior perceived believability without manual rule engineering.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は, 逐次意思決定において高いパフォーマンスを達成しているが, スパース報酬, 大規模状態行動空間, 協調戦略の学習の難しさにより, 複雑なマルチエージェント環境へのスケーリングは依然として困難である。エージェントチームのための特殊RLスキルポリシーの中から選択する集中型戦略コントローラとして,事前訓練された大規模言語モデル(LLM)が機能し,RLポリシーがリアクティブな低レベル実行を処理する階層型アーキテクチャを提案する。我々は,このハイブリッドシステムを,動作木 (BT) と 'emph{``Flat''} RL (スキル分解なしのエンドツーエンドトレーニング) のベースラインに対して,競争力のある2v2 King of the Hill環境において評価する。 LLM+RLシステムは、手作りBT(46.4\%対51.5\%の勝利率、$p=0.103$)と統計的に同等なタスク性能を達成する。ユーザー調査(n=15$)によると、60 %の参加者が LLM+RL のエージェントを最も人間らしく捉えている(p=0.027$)。これらの結果から,事前学習したLLM推論は,事前学習したRLスキルを効果的にオーケストレーションし,競争力のあるマルチエージェント調整を実現し,手動のルール工学を使わずに優れた信頼性を達成できることが示唆された。

関連論文リスト

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。 SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。 LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文参考訳（メタデータ） (2026-03-24T16:48:31Z)
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文参考訳（メタデータ） (2025-12-08T18:12:10Z)
AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T13:40:01Z)
From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。 RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文参考訳（メタデータ） (2025-10-02T01:31:10Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Reinforcing Competitive Multi-Agents for Playing 'So Long Sucker' [0.12234742322758417]
本稿では,マルチエージェント強化学習(MARL)の新たなベンチマークとして,戦略ゲームSo Long Sucker(SLS)について検討する。グラフィカルなユーザインタフェースと強化学習アルゴリズムのベンチマークサポートを備えた,SLS用の初の公開計算フレームワークを紹介した。
論文参考訳（メタデータ） (2024-11-17T12:38:13Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。 RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文参考訳（メタデータ） (2022-02-19T03:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。