論文の概要: Divide and Cooperate: Role-Decomposed Multi-Agent LLM Training with Cross-Agent Learning Signals
- arxiv url: http://arxiv.org/abs/2606.10684v1
- Date: Tue, 09 Jun 2026 10:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.4493
- Title: Divide and Cooperate: Role-Decomposed Multi-Agent LLM Training with Cross-Agent Learning Signals
- Title(参考訳): ディバイドと協調:クロスエージェント学習信号を用いたロール分解型マルチエージェントLDMトレーニング
- Authors: Jaewan Park, Solbee Cho, Jay-Yoon Lee,
- Abstract要約: 既存のアプローチは 一つのポリシーの中で 証拠の取得と 答えの生成を2つに分けます
エージェント検索を2つのサブタスクに分割するロール分解型マルチエージェントトレーニングフレームワークであるDAC(Divide and Cooperate)を提案する。
生成装置は、解答生成元と証拠充足検証器の両方として二重の役割を担い、検索された証拠が不十分な場合に停止する。
- 参考スコア(独自算出の注目度): 10.378290102256534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language agents which perform multi-step reasoning have shown strong performance in knowledge-intensive question answering. However, existing approaches typically couple evidence acquisition and answer generation within a single policy. This forces a single model to play multiple potentially conflicting roles, inducing a combinatorial explosion in the policy space and hindering efficient exploration. It also introduces a credit assignment problem during training: a search action that retrieves sufficient evidence may still be penalized when generation fails, and vice versa. We propose DAC (Divide and Cooperate), a role-decomposed multi-agent training framework that divides agentic search into two cooperative subtasks, each handled by a dedicated agent trained with role-specific learning signals. The generator serves a dual role as both an answer producer and an evidence sufficiency verifier, abstaining when retrieved evidence is insufficient. This abstention signal is incorporated into the search agent's reward, providing structured cross-agent learning signals that improve credit assignment. Conversely, the searcher exposes the generator to diverse and challenging evidence environments by hard-positive evidence augmentation, improving its robustness. Experiments on general and multi-hop QA benchmarks show that DAC, implemented via parameter-efficient LoRA modules over a shared backbone, achieves strong performance against prior baselines that rely on full fine-tuning of monolithic models.
- Abstract(参考訳): 多段階推論を行う現代言語エージェントは,知識集約型質問応答において高い性能を示した。
しかし、既存のアプローチは典型的には、一つのポリシーの中で証拠の取得と回答の生成を2つに分けている。
これにより、単一のモデルが複数の潜在的に矛盾する役割を担わざるを得なくなり、政策空間における組合せ的爆発を引き起こし、効率的な探索を妨げる。
十分な証拠を検索する検索アクションは、世代が失敗してもペナルティ化され、その逆もできる。
DAC(Divide and Cooperate)は、エージェント検索を2つの協調サブタスクに分割し、それぞれがロール固有の学習信号で訓練された専用エージェントによって処理されるロール分解型マルチエージェントトレーニングフレームワークである。
生成装置は、解答生成元と証拠充足検証器の両方として二重の役割を担い、検索された証拠が不十分な場合に停止する。
この棄権信号は、検索エージェントの報奨に組み込まれ、クレジット割当を改善する構造化されたクロスエージェント学習信号を提供する。
逆に、探索者は、強硬なエビデンス増強により、多様で挑戦的なエビデンス環境にジェネレータを公開し、その堅牢性を向上させる。
一般的なマルチホップQAベンチマークの実験では、DACはパラメータ効率のよいLoRAモジュールによって共有バックボーン上に実装され、モノリシックモデルの完全な微調整に依存する以前のベースラインに対して強力なパフォーマンスを実現する。
関連論文リスト
- CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts [22.323342919724492]
HERAは階層的なフレームワークで、マルチエージェントオーケストレーションとロール固有のエージェントプロンプトを共同で進化させる。
HERAは最近のベースラインよりも平均38.69%改善している。
トポロジカル分析により、スパース探索がコンパクトで高ユーティリティなマルチエージェントネットワークを生み出す創発的な自己組織化が明らかになった。
論文 参考訳(メタデータ) (2026-04-01T13:45:52Z) - MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。