論文の概要: Reward Modeling for Multi-Agent Orchestration
- arxiv url: http://arxiv.org/abs/2606.13598v1
- Date: Thu, 11 Jun 2026 17:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.942052
- Title: Reward Modeling for Multi-Agent Orchestration
- Title(参考訳): マルチエージェントオーケストレーションのためのリワードモデリング
- Authors: King Yeung Tsang, Zihao Zhao, Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Semih Yavuz, Shafiq Joty, Hao Wang,
- Abstract要約: LLM(Large Language Models)上に構築されたマルチエージェントシステム(MAS)は、特殊エージェントを協調するための効果的なオーケストレーションを必要とする。
人間のアノテーションを使わずにオーケストレーション品質を評価するための自己組織化フレームワークOrchRMを提案する。
- 参考スコア(独自算出の注目度): 43.79233309038303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-Agent Systems (MAS) built on Large Language Models (LLMs) require effective orchestration to coordinate specialized agents, yet training such orchestrators is hindered by limited supervision and high computational cost. We propose Orchestration Reward Modeling (OrchRM), a self-supervised framework for evaluating orchestration quality without human annotations. OrchRM leverages intermediate artifacts from multi-agent executions to construct win-lose pairs for Bradley-Terry reward model training. Unlike existing MAS test-time scaling and orchestrator training frameworks that rely on costly sub-agent rollouts, OrchRM operates directly at the orchestration level, enabling efficient and high-performing reward-guided orchestrator training and MAS test-time scaling. OrchRM improves training efficiency by up to 10x in token usage while improving MAS test-time scaling performance by up to 8% in accuracy. These gains consistently transfer across multiple domains, including mathematical reasoning, web-based question answering, and multi-hop reasoning, demonstrating orchestration-level reward modeling as a scalable direction for robust multi-agent orchestration. Code will be available at https://github.com/Wang-ML-Lab/OrchRM.
- Abstract(参考訳): LLM(Large Language Models)上に構築されたマルチエージェントシステム(MAS)は、特殊なエージェントを協調するための効果的なオーケストレーションを必要とするが、そのようなオーケストレータの訓練は、限られた監督と高い計算コストによって妨げられる。
人間のアノテーションを使わずにオーケストレーション品質を評価するための自己組織化フレームワークOrchRMを提案する。
OrchRMは、マルチエージェント実行から中間アーティファクトを活用して、Bradley-Terry報酬モデルトレーニングのためのウィンローペアを構築する。
コストのかかるサブエージェントロールアウトに依存する既存のMASテストタイムスケーリングやオーケストレータトレーニングフレームワークとは異なり、OrchRMはオーケストレーションレベルで直接運用し、効率的で高性能なオーケストレータトレーニングとMASテストタイムスケーリングを実現する。
OrchRMは、トークン使用率を最大10倍改善し、MASテストタイムスケーリング性能を最大8%向上する。
数学的推論、Webベースの質問応答、マルチホップ推論、堅牢なマルチエージェントオーケストレーションのためのスケーラブルな方向としてのオーケストレーションレベルの報酬モデリングの実証などである。
コードはhttps://github.com/Wang-ML-Lab/OrchRMで入手できる。
関連論文リスト
- LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning [31.870185345616733]
大規模言語モデル(LLM)はマルチエージェントシステムの強力な基盤となっているが、その効果はオーケストレーション設計に大きく依存している。
実行可能なオーケストレーション仕様を生成するオーケストレータであるLEMONを提案する。
MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEvalを含む6つの推論およびコーディングベンチマークの実験は、LEMONが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-05-14T07:24:09Z) - SkillOrchestra: Learning to Route Agents via Skill Transfer [65.50924963973286]
スキルを意識したオーケストレーションのためのフレームワークであるSkillOrchestraを紹介します。
SkillOrchestraは、実行経験からきめ細かいスキルを学び、それらのスキルの下でエージェント固有の能力とコストをモデル化する。
デプロイメントでは、オーケストレータが現在のインタラクションのスキル要件を推測し、明示的なパフォーマンスコストトレードオフの下でそれらを最も満足するエージェントを選択する。
論文 参考訳(メタデータ) (2026-02-23T10:17:25Z) - MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks [86.05918381895555]
関数呼び出し強化学習問題としてMASオーケストレーションを定式化する訓練時間フレームワークとしてMASOrchestraを提案する。
MAS-Orchestraでは、複雑なゴール指向のサブエージェントは呼び出し可能な関数として抽象化され、システム構造に対する大域的推論を可能にする。
分析の結果,MASはタスク構造や検証プロトコル,オーケストレータとサブエージェントの両方の機能に大きく依存していることが判明した。
論文 参考訳(メタデータ) (2026-01-21T04:57:02Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。