論文の概要: The Illusion of Multi-Agent Advantage
- arxiv url: http://arxiv.org/abs/2606.13003v2
- Date: Sat, 13 Jun 2026 05:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.200611
- Title: The Illusion of Multi-Agent Advantage
- Title(参考訳): マルチエージェントアドバンテージのイリュージョン
- Authors: Prathyusha Jwalapuram, Hehai Lin, Chuyuan Li, Fangkai Jiao, Sudong Wang, Yifei Ming, Zixuan Ke, Chengwei Qin, Giuseppe Carenini, Shafiq Joty,
- Abstract要約: 専門家が設計したマルチエージェントシステム(MAS)は、生の性能とコスト効率において、自動生成されたアーキテクチャを一貫して上回っていることを示す。
既存の評価フレームワークは、計算コストの増加の限界効用を考慮せず、アーキテクチャ上の重要なギャップと非効率を隠蔽している。
- 参考スコア(独自算出の注目度): 63.92466143571383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevailing wisdom posits that Multi-Agent Systems (MAS) are superior to Single-Agent Systems (SAS), citing advantages like context protection, parallel processing and distributed decision-making. However, empirical support for this claim relies primarily on comparisons with SAS baselines using benchmarks that prioritize isolated reasoning tasks, which do not adequately assess these advantages. Focusing on automatically generated MAS that are designed for enhanced generalizability over manually-designed counterparts, we perform a rigorous, systematic evaluation against SAS, specifically Chain-of-Thought with Self-Consistency (CoT-SC). Across traditional reasoning datasets and tasks with interactive multi-step workflows (e.g., BrowseComp-Plus), we demonstrate that automatic MAS consistently underperform CoT-SC despite being up to 10x more expensive. To isolate these failures from limitations inherent to task structure, we introduce a diagnostic synthetic dataset tailored for MAS featuring explicit task decomposition, context separation and parallelization potential. We show that expert-architected MAS consistently outperforms automatically generated architectures in both raw performance and cost-efficiency on this dataset, demonstrating that existing evaluation frameworks mask critical architectural gaps and inefficiencies of complex MAS by failing to account for the marginal utility of increased computational cost. Critically, systematic deconstruction of the generated MAS architectures reveals that current automated design paradigms produce architectural bloat that prioritizes superficial complexity which does not translate into functional utility, exposing a fundamental misalignment with multi-agent principles.
- Abstract(参考訳): マルチエージェントシステム(MAS)は、コンテキスト保護や並列処理、分散意思決定といった利点を引用して、単一エージェントシステム(SAS)よりも優れているという認識が一般的である。
しかしながら、この主張に対する実証的な支持は主に、これらの利点を適切に評価しない孤立推論タスクを優先するベンチマークを使用したSASベースラインとの比較に依拠している。
手動設計による汎用性向上を目的とした自動生成MASに着目し,SAS,特に自己整合性(CoT-SC)に対する厳密で体系的な評価を行う。
対話型マルチステップワークフロー(BrowseComp-Plusなど)を備えた従来の推論データセットやタスク全体にわたって、最大10倍のコストで自動MASがCoT-SCを一貫して上回っていることを実証した。
タスク構造固有の制約からこれらの障害を分離するために、明示的なタスク分解、コンテキスト分離、並列化ポテンシャルを備えたMAS用に調整された診断合成データセットを導入する。
我々は,既存の評価フレームワークが,計算コストの増加による限界効用を考慮せず,アーキテクチャ上の重要なギャップや複雑なMASの非効率性を隠蔽していることを示す。
批判的に、生成されたMASアーキテクチャの体系的なデコンストラクションは、現在の自動設計パラダイムが、機能的ユーティリティに変換されない表面的な複雑さを優先するアーキテクチャの肥大化を生じさせ、マルチエージェントの原則による根本的なミスアライメントを露呈することを明らかにする。
関連論文リスト
- An Empirical Study of Multi-Agent Collaboration for Automated Research [41.906658558789545]
本稿では,機械学習の自動最適化のための異なるマルチエージェント構造の比較効果について検討する。
サブエージェントアーキテクチャとエージェントチームアーキテクチャという,2つのマルチエージェントパラダイムに対して,単一エージェントベースラインをベンチマークする。
この結果から,運用安定性と理論的検討の根本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2026-03-31T11:57:00Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - A Systematic Study of LLM-Based Architectures for Automated Patching [7.9821766277253845]
本研究では,4つの大規模言語モデル (LLM) に基づくパッチ処理パラダイムの制御評価を行う。
実際の脆弱性タスクにおけるパッチの正確性、障害モード、トークン使用量、実行時間を分析します。
固定は効率的だが脆く、単一エージェントシステムは柔軟性とコストのバランスを保ち、マルチエージェント設計はオーバーヘッドを大幅に上回るコストを犠牲にして改善される。
論文 参考訳(メタデータ) (2026-03-01T20:26:22Z) - NEMO: Execution-Aware Optimization Modeling via Autonomous Coding Agents [41.70615840873279]
本稿では,決定問題の自然言語記述を形式的に実行可能な数学的最適化実装に変換するシステムNEMOを提案する。
NEMOは、LLMとAPIベースのインタラクションに類似したファーストクラスの抽象化として扱われる、自律型コーディングエージェント(ACAs)とのリモートインタラクションに焦点を当てている。
ACAはサンドボックス環境で実行されるため、NEMOが生成したコードはビルドによって実行可能であり、自動検証と修復が可能である。
論文 参考訳(メタデータ) (2026-01-29T07:57:23Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。