論文の概要: Benchmarking Open-Ended Multi-Agent Coordination in Language Agents
- arxiv url: http://arxiv.org/abs/2606.08340v1
- Date: Sat, 06 Jun 2026 21:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.048245
- Title: Benchmarking Open-Ended Multi-Agent Coordination in Language Agents
- Title(参考訳): 言語エージェントにおけるオープンエンディング型マルチエージェントコーディネーションのベンチマーク
- Authors: Kale-ab Abebe Tessera, Andras Szecsenyi, Cameron Barker, Alexander Rutherford, Davide Paglieri, Aidan Scannell, Henry Gouk, Elliot J. Crowley, Tim Rocktäschel, Amos Storkey,
- Abstract要約: Alemは、手続き的に生成されたコーディネーションタスク、ソフトな特殊化、コミュニケーション、制御可能なコーディネーションの難しさを、長い水平サバイバルの世界に埋め込む。
Craftaxライクなダイナミックス上に構築されたオープンなマルチエージェント協調のためのJAXベースのベンチマークである$alem$を紹介します。
- 参考スコア(独自算出の注目度): 48.1363632826625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are increasingly deployed as autonomous agents, they must coordinate with others over long horizons in open-ended interactive tasks. Yet existing evaluations rarely test these demands together, instead emphasising single-agent tasks, short interactions, or highly structured multi-agent settings. We introduce $alem$, a JAX-based benchmark for open-ended multi-agent coordination built on Craftax-like dynamics. Alem embeds procedurally generated coordination tasks, soft specialisation, communication, and controllable coordination difficulty into a long-horizon survival world with exploration, crafting, trading, and combat. We evaluate $13$ modern LLMs zero-shot within homogeneous teams, with trained MARL agents as reference points. Current LLM agents remain far from solving alem, averaging only ~6% normalised return, but their failures are not uniform. On the hardest coordination setting, zero-shot Gemini-3.1-Pro-High approaches MARL agents trained for one billion steps, while GPT-5.4-High achieves strong base-task reward but much lower coordination reward. This contrast shows that individual task competence does not imply coordination competence. Ablations show that communication is the largest contributor to coordination, while memory and reasoning help when used to maintain multi-step plans. Overall, our results identify coordination as a distinct bottleneck for frontier LLM agents, separate from single-agent capabilities. Alem makes this bottleneck measurable and provides a controlled testbed for developing agents that communicate, allocate roles, and execute shared plans. Code is available at https://github.com/alem-world/alem-env.
- Abstract(参考訳): 言語モデルは、自律的なエージェントとしてますますデプロイされるので、オープンエンドの対話的なタスクにおいて、長い視野で他の人と調整する必要があります。
しかし、既存の評価ではこれらの要求を一緒にテストすることは滅多になく、代わりに単一エージェントタスク、短いインタラクション、高度に構造化されたマルチエージェント設定を強調している。
Craftaxライクなダイナミックス上に構築されたオープンなマルチエージェント協調のためのJAXベースのベンチマークである$alem$を紹介します。
Alemは、手続き的に生成された調整作業、ソフトスペシャライゼーション、コミュニケーション、制御可能な調整困難を、探検、工芸、貿易、戦闘を伴う長期生存の世界に埋め込む。
我々は、訓練されたMARLエージェントを基準点として、同種チーム内での現代のLLMのゼロショットを13ドルで評価した。
現在のLLMエージェントは、平均して6%の正規化リターンしか得られないが、その失敗は均一ではない。
最も難しい調整設定では、ゼロショットのGemini-3.1-Pro-Highが10億歩の訓練を受けたMARLエージェントにアプローチし、GPT-5.4-Highは強力なベースタスク報酬を達成するが、調整報酬ははるかに低い。
この対比は、個々のタスク能力が、能力の調整を意図していないことを示している。
アブレーションによると、コミュニケーションはコーディネーションの最大の貢献者であり、メモリと推論は多段階計画を維持するのに役立ちます。
総じて,本研究は,単一エージェント機能とは別個の,フロンティアLSMエージェントのボトルネックとしてコーディネーションを同定した。
Alemはこのボトルネックを計測可能にし、役割の伝達、割り当て、共有計画の実行を行うエージェントを開発するための制御されたテストベッドを提供する。
コードはhttps://github.com/alem-world/alem-env.comで入手できる。
関連論文リスト
- Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - EmCoop: A Framework and Benchmark for Embodied Cooperation Among LLM Agents [18.802912315746564]
EmCoopは、組み込みマルチエージェントシステムの協調を研究するためのベンチマークフレームワークである。
我々のフレームワークは、高レベルの認知層と低レベルのエンボディドインタラクション層を分離する。
コラボレーションの品質と障害モードを診断する,一般化可能なプロセスレベルのメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-27T22:28:33Z) - CooperBench: Why Coding Agents Cannot be Your Teammates Yet [44.06715229961526]
CooperBenchは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調コーディングタスクのベンチマークである。
エージェントは、両方のタスクを個別に実行するよりも、一緒に働く場合の平均30%低い成功率を達成する。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
論文 参考訳(メタデータ) (2026-01-19T18:48:37Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - Towards Collaborative Intelligence: Propagating Intentions and Reasoning for Multi-Agent Coordination with Large Language Models [41.95288786980204]
現在のエージェントフレームワークは、シングルエージェント実行への依存に悩まされ、モジュール間通信が堅牢でないことが多い。
協調的なMARLにおける協調行動を可能にするための協調エージェントとして,大規模言語モデルを訓練するためのフレームワークを提案する。
伝搬ネットワークは、放送意図をチームメイト固有のコミュニケーションメッセージに変換し、指定されたチームメイトと関連する目標を共有する。
論文 参考訳(メタデータ) (2024-07-17T13:14:00Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。