論文の概要: Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution
- arxiv url: http://arxiv.org/abs/2606.10917v1
- Date: Tue, 09 Jun 2026 14:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.549952
- Title: Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution
- Title(参考訳): ロールエージェント:デュアルロール進化によるブートストラップLDM剤
- Authors: Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu,
- Abstract要約: Role-Agentは単一のLarge Language Model(LLM)を使用してエージェントと環境の両方として同時に機能する。
Role-Agentはパフォーマンスを継続的に改善し、強いベースラインよりも平均4%以上向上する。
- 参考スコア(独自算出の注目度): 25.26084224278813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, \textcolor{black}{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.
- Abstract(参考訳): LLM(Large Language Model)エージェントは複雑なタスクに対して強いパフォーマンスを示すが、その学習は非効率なインタラクションフィードバックや静的トレーニング環境によって制限され、より広範な一般化を妨げている。
これらの制約に対処するために,1つのLCMをエージェントと環境の両方として同時に機能させるRole-Agent, \textcolor{black}{a framework}を導入する。
Role-Agentは、World-In-Agent (WIA) と Agent-In-World (AIW) の2つの相乗的コンポーネントから構成される。
WIAでは、LLMはエージェントとして働き、各アクションの後に将来の状態を予測し、予測された状態と実際の状態の整合性はプロセス報酬として使用され、環境に配慮した推論を促進する。
AIWでは、LLMは失敗したトラジェクトリから障害モードを分析し、同様の障害パターンでタスクを検索することで、ターゲットとするプラクティスのためのトレーニングデータ配布を再構築する。
複数のベンチマークの実験によると、Role-Agentは一貫してパフォーマンスを改善し、強いベースラインよりも平均4\%以上向上している。
関連論文リスト
- DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文 参考訳(メタデータ) (2025-11-08T08:49:38Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Advancing Language Multi-Agent Learning with Credit Re-Assignment for Interactive Environment Generalization [38.68388721203677]
我々は,新しいマルチエージェントクレジット再割り当て戦略を備えたマルチエージェント強化学習フレームワークであるCollabUIAgentsを提案する。
我々は,マルチエージェントシステムの性能と環境横断の一般化性を両立させることを実証した。
論文 参考訳(メタデータ) (2025-02-20T12:26:15Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。