論文の概要: Agentic Collaborative Cognition for Zero-Shot 3D Understanding
- arxiv url: http://arxiv.org/abs/2606.24649v1
- Date: Tue, 23 Jun 2026 14:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.019455
- Title: Agentic Collaborative Cognition for Zero-Shot 3D Understanding
- Title(参考訳): ゼロショット3次元理解のためのエージェント協調認識
- Authors: Wenxin Wang, Bo Zhang, Feng Chen, Zixuan Wang, Wen Li, Changsheng Li, Yinjie Lei,
- Abstract要約: 本研究では,高レベル視点計画の処理に計画エージェントを割り当てる協調型マルチエージェントフレームワークを提案する。
知覚エージェントは、3Dシーンを構造化された全体的認知マップに明示的に要約する。
ScanReferでは11.1%のAcc@0.5、3D支援ダイアログでは14.6 BLEU-1、SQA3Dでは2.1 EM、最先端の6ベンチマークでは2.1 EMを実現している。
- 参考スコア(独自算出の注目度): 57.854375071638856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements have explored agentic zero-shot 3D understanding by reformulating it as video keyframe understanding with Multimodal Large Language Models (MLLMs). However, existing methods face an intrinsic bottleneck due to the finite observation perspectives inherent in videos and the implicit perception of 3D scenes. In this paper, we propose a collaborative multi-agent framework that assigns a Planning Agent to handle high-level viewpoint planning and supplement novel perspectives, and a Perception Agent to explicitly summarize the 3D scene into a structured holistic cognitive map. Specifically, Planning Agent first analyzes this cognitive map to determine query-relevant viewpoints and supplements missing critical perspectives to ensure comprehensive observation. Subsequently, Perception Agent documents object-level attributes from these views by assigning consistent instance identifiers across viewpoints, thereby integrating fragmented observations into the holistic cognitive map. In parallel, it provides feedback to filter out mismatched candidate objects and guide subsequent viewpoint planning. Through this closed-loop iterative process, two agents collaboratively figure out candidates until Perception Agent determines that sufficient information has been captured to complete the task. Extensive experiments demonstrate that our method achieves state-of-the-art performance on 6 benchmarks, with improvements of 11.1\% Acc@0.5 on ScanRefer, 14.6 BLEU-1 on 3D-assisted dialog, and 2.1 EM on SQA3D.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLMs) によるビデオキーフレーム理解を改良し,エージェント的ゼロショット3D理解を探求している。
しかし、既存の手法は、ビデオに固有の有限な観察視点と3Dシーンの暗黙的な認識のために、本質的なボトルネックに直面している。
本稿では,ハイレベルな視点計画や新たな視点を補うために計画エージェントを割り当てる協調型マルチエージェントフレームワークと,その3Dシーンを構造化された包括的認知地図に明示的に要約する知覚エージェントを提案する。
具体的には、プランニングエージェントはまずこの認知地図を分析して、クエリ関連視点を判断し、欠落した重要な視点を補い、包括的な観察を確実にする。
その後、パーセプションエージェントは、視点に一貫したインスタンス識別子を割り当てることで、これらのビューからオブジェクトレベルの属性を文書化する。
並行して、ミスマッチした候補オブジェクトをフィルタリングし、その後の視点計画をガイドするフィードバックを提供する。
このクローズドループ反復プロセスを通じて、2人のエージェントが、パーセプションエージェントがタスクを完了するのに十分な情報が取得されたと判断するまで、共同で候補を見つけ出す。
ScanReferでは11.1\% Acc@0.5、3D支援ダイアログでは14.6 BLEU-1、2.1 EM、SQA3Dでは2.1 EMである。
関連論文リスト
- Zero-Shot 3D Question Answering via Hierarchical View-to-Token Transportation [9.296275675671636]
本稿では,ビューレベルとトークンレベルの両方において,入力コンテキスト収集のための階層的アプローチを提案する。
具体的には、画素特徴とカメラパラメータを組み合わせることで、意味的内容と幾何学的位置の両方に基づいて、ビューの重要性を評価する。
フレームワークを3つの広く使用されているベンチマークで評価し、既存のチューニング不要の手法とトレーニングベースのアプローチに匹敵するパフォーマンスを大幅に改善したことを示す。
論文 参考訳(メタデータ) (2026-06-02T03:38:51Z) - 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis [42.29123264398027]
3DMedAgentは、2D MLLMが3D特有の微調整なしで一般的な3DCT分析を行うことを可能にする統合エージェントである。
40以上のタスクにわたる実験では、3DMedAgentは一般、医療、および3D固有のMLLMよりも一貫して優れていた。
論文 参考訳(メタデータ) (2026-02-20T08:31:26Z) - Embodied Intelligence for 3D Understanding: A Survey on 3D Scene Question Answering [28.717312557697376]
3D Scene Question Answeringは、3D視覚認識と自然言語処理を統合した学際的なタスクである。
大規模マルチモーダルモデリングの最近の進歩は、多様なデータセットの作成を促している。
われわれは3D SQAの総合的かつ体系的なレビューを行った。
論文 参考訳(メタデータ) (2025-02-01T07:01:33Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。