論文の概要: ARMOR-MAD: Adaptive Routing for Heterogeneous Multi-Agent Debate in Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2606.13197v1
- Date: Thu, 11 Jun 2026 11:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.74648
- Title: ARMOR-MAD: Adaptive Routing for Heterogeneous Multi-Agent Debate in Large Language Model Reasoning
- Title(参考訳): ARMOR-MAD:大言語モデル推論における不均一なマルチエージェント議論のための適応的ルーティング
- Authors: Fuqiang Niu, Bowen Zhang,
- Abstract要約: ARMOR-MADは、議論を条件計算として扱う訓練不要な異種MADフレームワークである。
ARMOR-MADは、同じモデルプールを用いた固定ラウンドの不均一な議論よりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 4.363650510090806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent debate (MAD) can improve large language model reasoning, but fixed debate pipelines often waste computation and can amplify correlated errors among similar agents. We propose ARMOR-MAD, a training-free heterogeneous MAD framework that treats debate as conditional computation. ARMOR-MAD combines three components: Pre-debate Agreement Routing (PAR) decides whether independently generated Round-0 answers require debate; Early Agreement Stopping Evaluator (EASE) stops debate after convergence; and Semantic Outlier Detection (SOD) down-weights abnormal final answers during aggregation. Across MATH Level 5, GSM8K, MMLU, and MMLU-Pro, ARMOR-MAD consistently improves over fixed-round heterogeneous debate with the same model pool, reaching 65.5\%, 96.5\%, 90.0\%, and 81.5\% accuracy, respectively. The results suggest that genuine model heterogeneity and agreement-based control are both important for making MAD more accurate and efficient.
- Abstract(参考訳): マルチエージェントディベート(MAD)は大きな言語モデルの推論を改善することができるが、固定されたディベートパイプラインはしばしば計算を無駄にし、類似エージェント間の相関エラーを増幅することができる。
我々は、議論を条件計算として扱う訓練不要な異種MADフレームワークARMOR-MADを提案する。
ARMOR-MADは3つのコンポーネントを組み合わせている: 事前議論の合意(PAR)は、独立に生成されたラウンド0の回答が議論を必要とするかどうかを判断する; 早期合意の停止評価器(EASE)は収束後に議論をやめる; セマンティック・アウトリー検出(SOD)は集約中に異常な最終回答を下方修正する。
MATHレベル5、GSM8K、MMLU-Pro、MMLU-Pro全体で、ARMOR-MADは、同じモデルプールで固定ラウンドの不均一な議論を常に改善し、それぞれ65.5\%、96.5\%、90.0\%、81.5\%に達した。
この結果は,MADをより正確かつ効率的にするために,真のモデルの不均一性と合意に基づく制御が重要であることを示唆している。
関連論文リスト
- MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation [51.32912774464992]
大規模な言語モデルは、しばしば完全に指定されたプロンプトからタスクを解くが、同じ要求が複数のターンに広がると分解する。
本研究は, モデル自体の方針から, 履歴をクリアした基準を用いて汚染を低減させる, オンライン自己蒸留法であるMAIGOを提案する。
ミドルターンの場合、MAIGOは、ユーザ可視のシャードプレフィックスを保持しながら、事前のアシスタント応答を削除します。
論文 参考訳(メタデータ) (2026-05-26T15:38:46Z) - Heterogeneous Consensus-Progressive Reasoning for Efficient Multi-Agent Debate [58.675713546748305]
マルチエージェント・ディベート(英: Multi-Agent Debate、MAD)は、複数のエージェントが推論および反復的批判サイクルの生成を通じて、反復的にソリューションを洗練する協調的なフレームワークである。
本研究は,HCP-MADのための不均一なコンセンサス・プログレッシブ推論を導入する。
HCP-MADは3段階のプログレッシブ推論機構を用いて、様々なタスク複雑度にまたがる適応的なソリューションを開発する。
論文 参考訳(メタデータ) (2026-04-03T06:58:59Z) - Prepare Reasoning Language Models for Multi-Agent Debate with Self-Debate Reinforcement Learning [49.99694105650486]
自己決定強化学習(Self-Debate Reinforcement Learning, SDRL)は、強力な問題解決能力を持つ単一の大規模言語モデルを備えたトレーニングフレームワークである。
我々は,SDRLが単一モデル推論を同時に強化しつつ,総合的マルチエージェント議論(MAD)性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-01-29T20:21:44Z) - iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference [11.86992814928132]
マルチエージェント・ディベート(MAD)は、構造化された議論に複数のエージェントを関与させる有望なフレームワークとして登場した。
トークン効率の高いフレームワークであるインテリジェントマルチエージェント・ディベート(iMAD)を提案する。
iMADはトークン使用率(最大92%)を大幅に削減し、最終回答精度(最大13.5%)も向上することを示した。
論文 参考訳(メタデータ) (2025-11-14T13:50:51Z) - Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - Free-MAD: Consensus-Free Multi-Agent Debate [17.384699873512464]
マルチエージェント討論(MAD)は、大規模言語モデル(LLM)の推論能力を改善するための新しいアプローチである。
既存のMADメソッドは、合意に達するためにエージェント間の複数ラウンドの相互作用に依存しており、最終的な出力は前回のラウンドで多数決によって選択される。
エージェント間のコンセンサスを必要としない新しいMADフレームワークであるtextscFree-MADを提案する。
論文 参考訳(メタデータ) (2025-09-14T01:55:01Z) - Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? [13.569822165805851]
マルチエージェント・ディベート(MAD)は,大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。
近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。
我々はMajority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し、それぞれのコントリビューションを評価する。
論文 参考訳(メタデータ) (2025-08-24T22:14:32Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。