論文の概要: Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.09290v1
- Date: Mon, 08 Jun 2026 09:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.91187
- Title: Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning
- Title(参考訳): Visual Para-Thinker++:Visual Reasoningのための単一プラットフォームマルチエージェントフレームワーク
- Authors: Haoran Xu, Hongyu Wang, Yifei Gao, Jiaze Li, Zizhao Tong, Xiaofeng Zhang, Xiaosong Yuan,
- Abstract要約: 視覚推論のための単一政治マルチエージェントフレームワークであるVisual Para-Thinker++を提案する。
1つの共有MLLMポリシーは、ロールコンディショニングされたMain、Worker、Slide Agentsとしてインスタンス化されます。
Visual Para-Thinker++は、単一軌跡と推論時並列ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 21.742087982689956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.
- Abstract(参考訳): 視覚的推論には、領域、属性、関係に分散したエビデンスを統合することが必要である。
1つの共有MLLMポリシーをロール条件のMain, Worker, Summary Agentsとしてインスタンス化する単一政治マルチエージェントフレームワークであるVisual Para-Thinker++を提案する。
Main Agentは、固定されたアロケーションパターンでタスクを分解し、Worker Agentはコンテキスト分離の下で並列に推論する。
共有ポリシは、役割固有の報酬とそれに対応するトークンセグメントにアドバンテージを割り当て、協調的な役割間の勾配の衝突を減らす、マルチエージェント能力注入とロール非結合型マルチエージェント最適化によって訓練される。
ネイティブ推論エンジンは、共有ビジュアルプレフィックスとKVキャッシュ再利用による効率的なマルチエージェントロールアウトを可能にする。
V*、CountBench、RefCOCOファミリ、HalusionBenchの他、Visual Para-Thinker++は単一軌道と推論時並列ベースラインを一貫して上回り、特に幻覚に敏感な視覚的推論に強い影響を与えている。
関連論文リスト
- AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning [14.105640933123325]
大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$ours$を提案する。
論文 参考訳(メタデータ) (2025-10-20T19:07:51Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Emergent Coordination in Multi-Agent Language Models [2.504366738288215]
マルチエージェントシステムが高次構造の兆候を示すかどうかをテストするための情報理論フレームワークを提案する。
この情報分解により、マルチエージェントLLMシステムに動的に出現するかどうかを測定することができる。
我々は,エージェントの直接通信を使わずに,単純な推測ゲームを用いた実験に本フレームワークを適用した。
論文 参考訳(メタデータ) (2025-10-05T11:26:41Z) - Tree of Agents: Improving Long-Context Capabilities of Large Language Models through Multi-Perspective Reasoning [11.045096250408067]
Tree of Agents(TOA)は、インプットを独立したエージェントによって処理されたチャンクに分割するマルチエージェント推論フレームワークである。
TOAは、エージェントが複数のパースペクティブな理解のために異なる推論順序を探索することを可能にする。
処理効率を向上させるため,プレフィックスハッシュキャッシュと適応型プルーニング戦略を取り入れた。
論文 参考訳(メタデータ) (2025-09-08T08:34:02Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。