論文の概要: PerspectiveGap: A Benchmark for Multi-Agent Orchestration Prompting
- arxiv url: http://arxiv.org/abs/2606.08878v1
- Date: Sun, 07 Jun 2026 23:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.501336
- Title: PerspectiveGap: A Benchmark for Multi-Agent Orchestration Prompting
- Title(参考訳): PerspectiveGap: マルチエージェントオーケストレーションのベンチマーク
- Authors: Youran Sun, Xingyu Ren, Kejia Zhang, Xinpeng Liu, Jiaxuan Guo,
- Abstract要約: PerspectiveGapは、マルチエージェントシステムのためのオーケストレーションプロンプトを構成するLLMの機能を評価するためのベンチマークである。
10社の27社の商用モデルによる実験では、GPT-5.5は全てのライバルより大幅に優れていた。
- 参考スコア(独自算出の注目度): 6.877973774604102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world LLM applications are moving beyond single-agent workflows toward orchestrated multi-agent systems, yet current models still struggle to determine what each sub-agent needs to know. To measure this, we introduce PerspectiveGap, a benchmark for evaluating LLMs' ability to compose orchestration prompts for multi-agent systems. PerspectiveGap contains 110 scenarios, each evaluated through two distractor-mixed task formats: role-fragment assignment and free-form prompt writing. These scenarios are organized into 10 topologies, which are distilled from the authors' real-world engineering practice and framed by the Prompt Economy principle: building loop-centered orchestrations that maximize utility with minimal role and engineering overhead. In experiments with 27 commercial models from 10 companies, GPT-5.5 substantially outperforms all competitors, whereas Opus 4.7 shows a notable weakness in orchestration prompting despite its strong coding performance. Nevertheless, PerspectiveGap remains challenging: the evaluated models achieve an average combined pass rate of only 14.9\% (GPT-5.5 62.0\%) and an average overall leakage rate of 246.5\% (a per-scenario information leak-event count, not a proportion; GPT-5.5 49.1\%). These findings suggest that multi-agent orchestration prompting is a distinct and under-evaluated capability, and PerspectiveGap provides a foundation for measuring and improving it systematically.
- Abstract(参考訳): 現実のLLMアプリケーションは、単一エージェントワークフローを超えて、オーケストレーションされたマルチエージェントシステムへと移行していますが、現在のモデルは、各サブエージェントが知る必要があるものを決定するのに苦労しています。
これを測定するために,マルチエージェントシステムのためのオーケストレーションプロンプトを構成するLLMの能力を評価するベンチマークであるspectiveGapを紹介する。
PerspectiveGapには110のシナリオが含まれており、それぞれが、ロールフラグメント代入とフリーフォームプロンプト書き込みという、2つの散在したタスクフォーマットを通じて評価されている。
これらのシナリオは10のトポロジにまとめられており、著者の現実世界のエンジニアリングプラクティスから抽出され、Prompt Economicの原則によって構成されている: 最小の役割とエンジニアリングオーバーヘッドでユーティリティを最大化するループ中心のオーケストレーションを構築する。
10社の27社の商用モデルによる実験では、GPT-5.5は全ての競合より大幅に優れており、一方 Opus 4.7 は強力なコーディング性能にもかかわらず、オーケストレーションの顕著な弱点を示している。
評価された総合パスレートは14.9 % (GPT-5.5 62.0 %) であり、全体的なリークレートは246.5 % (シナリオごとの情報漏洩回数は比例ではなく、GPT-5.5 49.1 %) である。
これらの結果から,マルチエージェントオーケストレーションのプロンプトが明確かつ低評価能力であることを示唆し,AspectiveGapはそれを体系的に測定および改善するための基盤を提供する。
関連論文リスト
- SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks [73.92333717662558]
SpaceWorldは、複雑な現実世界のタスクにおけるマルチモーダルエージェントのインタラクティブな空間的理解を評価するためのベンチマークである。
多様なドメイン(例えば、家庭のルーチン、旅行、社会協力など)にまたがる760の人称タスクが特徴である。
信頼性評価のために、各タスクは、人間検証された初期状態、参照軌跡、端末状態検証器を含む。
論文 参考訳(メタデータ) (2026-06-08T15:51:51Z) - EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design [0.4499833362998488]
3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
論文 参考訳(メタデータ) (2026-05-19T12:12:09Z) - Agentick: A Unified Benchmark for General Sequential Decision-Making Agents [30.028388632526745]
Agentickはシーケンシャルな意思決定エージェントのベンチマークである。
プロシージャで生成されたタスクは6つの機能カテゴリ、難易度レベル4、観察モード5で37になる。
27のコンフィグレーションと90,000以上のエピソードにまたがる評価では、単一のアプローチが支配的でないことが示されている。
論文 参考訳(メタデータ) (2026-05-07T19:12:03Z) - EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文 参考訳(メタデータ) (2025-10-17T16:53:09Z) - BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities [61.173773299032746]
身体能力とは、エージェントが物理的世界を理解し、理解し、相互作用する一連の基本的な能力を指す。
我々は,原子エンボディド能力のMLLMを評価する,包括的できめ細かなベンチマークであるBEARを紹介する。
BEARは、低レベルポインティング、軌跡理解、空間的推論、高レベルプランニングといったタスクを含む、14のドメインにまたがる4,469のインターリーブイメージビデオテキストエントリで構成されている。
我々は,MLLM知覚,3D理解,計画能力を強化するために,事前学習された視覚モデルを統合するマルチモーダル・コンバータブルエージェントであるBEAR-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:18:36Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。