論文の概要: Reason Twice: Segmentation via Candidate Discovery and Comparative Reasoning
- arxiv url: http://arxiv.org/abs/2606.09303v1
- Date: Mon, 08 Jun 2026 10:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.918899
- Title: Reason Twice: Segmentation via Candidate Discovery and Comparative Reasoning
- Title(参考訳): Reason Twice: 候補発見と比較推論によるセグメンテーション
- Authors: Xinyan Gao, Haoran Hao, Xiangyu Yue,
- Abstract要約: マスク生成と選択のための2段階フレームワークRea2Segを提案する。
このフレームワークは、まず、セグメンテーションMLLMのアテンションマップに基づいて、潜在的領域を候補マスクとして識別する。
次にMLLMを使って質問と候補者のマスクを推論し、各マスクにスコアを割り当てる。
最終セグメンテーション結果は、候補を再ランクし、最高スコアマスクを選択することで得られる。
- 参考スコア(独自算出の注目度): 10.180485222685492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of pretrained foundation models has enabled more general image segmentation. Multimodal large language models (MLLMs) have been widely explored for image segmentation with complex queries that require high-level reasoning. Despite promising progress, existing methods are often constrained by limited training data and the gap between MLLMs and mask generation modules. To better transfer MLLMs' perception and reasoning ability to complex reasoning-based segmentation tasks, we propose a two-stage framework Rea2Seg for mask generation and selection. Specifically, the framework first identifies potential regions as candidate masks based on the attention maps of a segmentation MLLM. It then employs an MLLM to reason over the question and candidate masks and assign scores to each mask. The final segmentation result is obtained by reranking the candidates and selecting the highest-scoring mask, reformulating image segmentation as candidate discovery followed by discriminative mask selection. We also notice that a large portion of questions in existing benchmarks focus on commonsense reasoning, and these questions usually do not fully require joint visual observation and reasoning. To address this issue, we introduce a new benchmark called ReasonSeg-SGDR that comprehensively evaluates a model's perception, grounding, and reasoning abilities across multiple dimensions, including discriminative recognition, spatial reasoning, geometric reasoning, and multi-step reasoning, with fine-grained mask generation. In addition, we collect training data to enhance MLLMs' ability to jointly understand multimodal queries and candidate masks, and to assign scores through reasoning. Experimental results on the proposed benchmark and ReasonSeg demonstrate the effectiveness of the unified mask generation and selection framework.
- Abstract(参考訳): 事前訓練された基礎モデルの急速な開発により、より一般的な画像セグメンテーションが可能になった。
マルチモーダル大言語モデル (MLLM) は、高レベルの推論を必要とする複雑なクエリによる画像セグメント化のために広く研究されている。
有望な進歩にもかかわらず、既存の手法は限られたトレーニングデータとMLLMとマスク生成モジュールのギャップによって制約されることが多い。
MLLMの知覚と推論能力を複雑な推論に基づくセグメンテーションタスクに伝達するために,マスク生成と選択のための2段階フレームワークRea2Segを提案する。
具体的には、まず、セグメンテーションMLLMのアテンションマップに基づいて、潜在的領域を候補マスクとして識別する。
次にMLLMを使って質問と候補者のマスクを推論し、各マスクにスコアを割り当てる。
最終セグメンテーション結果は、候補を再分類し、最高スコアマスクを選択し、画像セグメンテーションを候補発見として改定し、識別マスク選択する。
また、既存のベンチマークでは、ほとんどの質問がコモンセンス推論に焦点を合わせており、これらの質問は通常、共同的な視覚的観察と推論を必要としない。
この問題に対処するために,識別的認識,空間的推論,幾何学的推論,多段階推論など,複数の次元にわたるモデルの知覚,接地,推論能力を網羅的に評価するReasonSeg-SGDRという新しいベンチマークを導入する。
さらに,マルチモーダルクエリと候補マスクを協調的に理解するMLLMの能力を高めるためのトレーニングデータを収集し,推論によってスコアを割り当てる。
提案したベンチマークとReasonSegによる実験結果から,マスク生成と選択フレームワークの有効性が示された。
関連論文リスト
- Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation [52.8308168727975]
Seg-Agentは完全にトレーニング不要のフレームワークで、Explicit Multimodal Chain-of-Reasoningの先駆者です。
提案手法は, 生成, 選択, 洗練の3段階からなる対話型視覚推論ループを構築する。
various-LangSegは、明示的なセマンティック、ジェネリックオブジェクト、推論誘導セグメンテーションタスクをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T03:36:44Z) - Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation [79.13636675697096]
Ref-AVSコンテキストにおけるマスク品質評価(MQA-RefAVS)
MQA-RefAVSは、地平線アノテーションに頼ることなく、候補セグメンテーションマスクの品質を評価するタスクである。
本稿では,マルチモーダルな大規模言語モデル(MLLM)に基づく監査ツールMQ-Auditorを提案する。
論文 参考訳(メタデータ) (2026-02-03T07:47:59Z) - Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation [44.89730606641666]
IBISAgentはビジョン中心の多段階意思決定プロセスとしてセグメンテーションを再構築する。
IBISAgentは、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っている。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
論文 参考訳(メタデータ) (2026-01-06T14:37:50Z) - Refer to Any Segmentation Mask Group With Vision-Language Prompts [79.43440775648824]
RAS(Refer to Any Mask Group)は、複雑なマルチモーダル相互作用と理解を伴うセグメンテーションモデルを強化する。
我々は,従来の参照表現セグメンテーション(RES)および一般化参照表現セグメンテーション(GRES)タスクと同様に,新しいORESタスクにおけるRASの優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-05T17:59:51Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。