論文の概要: Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking
- arxiv url: http://arxiv.org/abs/2606.07689v1
- Date: Fri, 05 Jun 2026 06:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.279386
- Title: Struct-Searcher: Agentic Structural Thinking Advances Multimodal Deep Information Seeking
- Title(参考訳): Struct-Searcher:エージェント構造思考がマルチモーダルな深層情報検索を推進
- Authors: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Zheng Lian, Hao Wu, Yuan Gao, Xinyu Geng, Xin Wang, Pheng-Ann Heng,
- Abstract要約: ストラクト・サーチャー(Struct-Searcher)は、信念理論に基づく構造的エージェントワークフローである。
推論プロセスを通して、進化するマルチモーダル構造グラフを明示的に維持する。
- 参考スコア(独自算出の注目度): 57.25141826641528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents have attracted increasing attention for their ability to collect large-scale online information to acquire target knowledge, with recent efforts shifting from purely text-based information seeking to multimodal settings. However, existing agentic workflows are largely aligned with evidence accumulation models, which linearly aggregate evidence and lack principled mechanisms for handling contradictory information across heterogeneous modalities. Towards this end, we propose Struct-Searcher, a structural agentic workflow grounded in belief revision theory that explicitly maintains an evolving multimodal structural graph throughout the reasoning process, enabling effective conflict-aware multimodal deep information seeking. Extensive experiments across multiple benchmark datasets and backbone models demonstrate that Struct-Searcher is (1) plug-and-play and model-agnostic, yielding an average relative accuracy improvement of 17.2% on BrowseComp-VL across five different backbones. (2) top-performing, consistently outperforming state-of-the-art vision-language models (VLMs) and deep research agents, with relative accuracy improvements of 3.7% on MM-BrowseComp, 1.5% on HLE-VL, and 0.7% on BrowseComp-VL over the second-best competing approach.
- Abstract(参考訳): ディープリサーチエージェントは、ターゲット知識を得るために大規模なオンライン情報を集める能力に注目が集まっており、最近の取り組みは、テキストベースの純粋情報からマルチモーダルセッティングへとシフトしている。
しかし、既存のエージェントワークフローはエビデンス蓄積モデルと概ね一致しており、それは証拠を線形に集約し、不均一なモダリティをまたいだ矛盾情報を扱うための原則的なメカニズムが欠如している。
この目的に向けて、我々は、理論修正理論に基づく構造エージェントワークフローであるStruct-Searcherを提案し、推論プロセスを通して、進化するマルチモーダルな構造グラフを明示的に維持し、効果的なコンフリクト対応マルチモーダルな情報検索を可能にする。
複数のベンチマークデータセットとバックボーンモデルにわたる大規模な実験により、Struct-Searcherは(1)プラグアンドプレイでモデルに依存しないことが示され、5つのバックボーンでBrowseComp-VLの平均相対精度は17.2%向上した。
2) MM-BrowseCompでは3.7%,HLE-VLでは1.5%,BrowseComp-VLでは0.7%,比較的精度が向上した。
関連論文リスト
- MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。
GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。
MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文 参考訳(メタデータ) (2026-04-15T07:39:08Z) - An Empirical Study of Multi-Agent Collaboration for Automated Research [41.906658558789545]
本稿では,機械学習の自動最適化のための異なるマルチエージェント構造の比較効果について検討する。
サブエージェントアーキテクチャとエージェントチームアーキテクチャという,2つのマルチエージェントパラダイムに対して,単一エージェントベースラインをベンチマークする。
この結果から,運用安定性と理論的検討の根本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2026-03-31T11:57:00Z) - KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains [79.14584837105808]
MC-Searchは5つの代表的推論構造にまたがる長いステップワイドなアノテート推論チェーンを持つエージェントMM-RAGの最初のベンチマークである。
回答精度以外にも、MC-Searchは、品質、段階的検索、計画精度を推論するための新しいプロセスレベルメトリクスを導入している。
エージェントMM-RAGパイプラインを統一的に開発することにより、6つのMLLMをベンチマークし、過剰検索や過度検索、モダリティミスアライメント計画などの体系的な問題を明らかにする。
論文 参考訳(メタデータ) (2026-03-01T02:25:57Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。
データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。
まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。
第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文 参考訳(メタデータ) (2026-02-02T18:32:48Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。