論文の概要: Orchestra-o1: Omnimodal Agent Orchestration
- arxiv url: http://arxiv.org/abs/2606.13707v1
- Date: Wed, 10 Jun 2026 04:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.507789
- Title: Orchestra-o1: Omnimodal Agent Orchestration
- Title(参考訳): Orchestra-o1:Omnimodal Agent Orchestration
- Authors: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng,
- Abstract要約: Orchestra-o1は、複数のモダリティをまたいだ効率的なエージェントコラボレーションをサポートするように設計された、オムニモーダルなエージェントオーケストレーションフレームワークである。
本研究は,モダリティを意識したタスクの分解,オンラインサブエージェントの特殊化,並列サブタスク実行を可能にする統一的なオーケストレーション機構を導入する。
このスケーラブルな設計により、エージェントシステムは異種情報ソースを含む複雑な現実世界のタスクに効果的に取り組むことができ、OmniGAIAベンチマークの精度は10.3%向上した。
- 参考スコア(独自算出の注目度): 72.34907006336108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of agent swarms has shifted the paradigm of large language model (LLM)-based agents from single-agent workflows to multi-agent systems, highlighting the importance of agent orchestration for task decomposition and collaboration. However, existing orchestration frameworks are limited to a narrow set of modalities and struggle to generalize to more complex settings where heterogeneous modalities coexist and interact. This limitation becomes particularly pronounced in omnimodal scenarios, where tasks require the unified understanding and coordination of diverse inputs such as text, image, audio, and video. In this work, we propose Orchestra-o1, an omnimodal agent orchestration framework designed to support efficient agent collaboration across multiple modalities. Orchestra-o1 introduces a unified orchestration mechanism that enables modality-aware task decomposition, online sub-agent specialization, and parallel sub-task execution. This scalable design allows agent systems to effectively tackle complex real-world tasks involving heterogeneous information sources, surpassing the second-best approach by 10.3% accuracy on the OmniGAIA benchmark. Furthermore, we introduce decision-aligned group relative policy optimization (DA-GRPO), an efficient agentic reinforcement learning approach for training Orchestra-o1-8B, which also achieves state-of-the-art performance against all existing open-source omnimodal agents.
- Abstract(参考訳): 最近のエージェントスワムの成功により、大規模言語モデル(LLM)ベースのエージェントのパラダイムが単一エージェントワークフローからマルチエージェントシステムに移行し、タスクの分解とコラボレーションにおけるエージェントオーケストレーションの重要性が強調された。
しかし、既存のオーケストレーションフレームワークは限られたモダリティに限られており、異質なモダリティが共存し相互作用するより複雑な設定に一般化するのに苦労している。
この制限は、タスクがテキスト、画像、オーディオ、ビデオなどの多様な入力の統一された理解と調整を必要とするような、一様でないシナリオにおいて特に顕著になる。
本研究では,複数のモーダルをまたいだ効率的なエージェント協調を支援するために設計された,一様エージェントオーケストレーションフレームワークであるOrchestrator-o1を提案する。
Orchestra-o1では、モダリティ対応タスクの分解、オンラインサブエージェントの特殊化、並列サブタスク実行を可能にする統一的なオーケストレーションメカニズムが導入されている。
このスケーラブルな設計により、エージェントシステムは異種情報ソースを含む複雑な現実世界のタスクに効果的に取り組むことができ、OmniGAIAベンチマークの精度は10.3%向上した。
さらに,決定整合型グループ相対ポリシー最適化 (DA-GRPO) を導入する。これは,Orchestrator-o1-8Bのトレーニングに有効なエージェント強化学習手法であり,既存の全オープンソースエージェントに対して最先端のパフォーマンスを実現する。
関連論文リスト
- Small Model as Master Orchestrator: Learning Unified Agent-Tool Orchestration with Parallel Subtask Decomposition [61.291733522717415]
Agent-as-Toolは並列オーケストレーションのパラダイムであり、エージェントとツールの両方を標準化された学習可能なアクション空間に緩和する。
ParaManagerは、サブタスク解決から計画決定を分離し、ステート対応の並列サブタスク分解、デリゲート、非同期実行を可能にする。
実験により、ParaManagerは複数のベンチマークで高い性能を示し、目に見えないモデルプールの下で堅牢な一般化を示す。
論文 参考訳(メタデータ) (2026-04-18T14:41:27Z) - MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks [86.05918381895555]
関数呼び出し強化学習問題としてMASオーケストレーションを定式化する訓練時間フレームワークとしてMASOrchestraを提案する。
MAS-Orchestraでは、複雑なゴール指向のサブエージェントは呼び出し可能な関数として抽象化され、システム構造に対する大域的推論を可能にする。
分析の結果,MASはタスク構造や検証プロトコル,オーケストレータとサブエージェントの両方の機能に大きく依存していることが判明した。
論文 参考訳(メタデータ) (2026-01-21T04:57:02Z) - Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI [1.8244641115869653]
エージェントのフェデレーション(FoA)は,マルチエージェントのコーディネーションを動的かつ能力駆動的なコラボレーションに変換する分散オーケストレーションフレームワークである。
FoAは、セマンティック埋め込みを通じてエージェント機能を検索可能にするマシン可読プロファイルであるVersioned Capability Vectors (VCVs)を導入した。
単一モデルベースラインよりも13倍の改善が見られ、クラスタリング強化労働力は複雑な推論タスクに特に有効である。
論文 参考訳(メタデータ) (2025-09-24T14:38:06Z) - AgentOrchestra: Orchestrating Hierarchical Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol [22.406849007798858]
本稿では,環境,エージェント,ツールを統一システムに統合するツール-環境-エージェントプロトコルを提案する。
本稿では,複雑な目的を分解し,特殊エージェントをコーディネートする中央計画エージェントを備えた階層型マルチエージェントフレームワークであるAgensOrchestraを紹介する。
論文 参考訳(メタデータ) (2025-06-14T13:45:37Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。