論文の概要: ActiveScope: Actively Seeking and Correcting Perception for MLLMs
- arxiv url: http://arxiv.org/abs/2606.24292v1
- Date: Tue, 23 Jun 2026 08:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.849069
- Title: ActiveScope: Actively Seeking and Correcting Perception for MLLMs
- Title(参考訳): ActiveScope:MLLMのアクティブな検索と修正
- Authors: Yajing Wang, Chao Bi, Junshu Sun, Shufan Shen, Zhaobo Qi, Shuhui Wang, Qingming Huang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、高解像度画像における微細な認識に苦戦している。
本研究では,能動的に知覚を探索し,修正することにより,MLLMを強化したトレーニングフリーフレームワークであるActiveScopeを提案する。
- 参考スコア(独自算出の注目度): 73.84325380140547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive vision-language understanding, yet still struggle with fine-grained perception in high-resolution images. While existing training-free methods typically rely on attention-based localization or coarse-to-fine search, they are often misled by distractors and fail to locate multiple targets. Our investigation attributes these failures to Contextual Dominance, where salient distractors overwhelm target attention and cause inaccurate localization, and Semantic Bias, where global semantics cause the model to fixate on the most salient concept, resulting in incomplete localization in multi-object scenarios. Built on these insights, we propose ActiveScope, a training-free framework that enhances MLLMs by actively seeking and correcting perception. ActiveScope features two modules. The Semantic Anchor Localization (SAL) utilizes fine-grained semantic anchors to independently localize key targets, thereby mitigating semantic bias. The Interference-Suppressed Refinement (ISR) refines localization by suppressing attention on salient distractions to overcome contextual dominance. Extensive experiments on high-resolution image understanding benchmarks demonstrate that ActiveScope outperforms existing training-free methods (e.g., 96.34 percent accuracy on $V^{*}$ Bench), validating the superiority of the active search and self-correction paradigm. Our code is available at https://github.com/jasmine-ww/ActiveScope.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚言語理解に優れるが、高解像度画像では微妙な認識に苦戦している。
既存のトレーニングフリーの手法は、注意に基づくローカライズや粗いサーチに頼っていることが多いが、しばしば邪魔者によって誤解され、複数のターゲットを見つけるのに失敗する。
我々の調査は、これらの失敗がコンテキスト支配(Contextual Dominance)に起因している。そこでは、有意な気晴らし者がターゲットの注意を圧倒し、不正確なローカライゼーションを引き起こす、セマンティックバイアス(Semantic Bias)、そして、グローバルセマンティクスがモデルを最も健全な概念に固定させ、その結果、多目的シナリオにおいて不完全なローカライゼーションをもたらすセマンティックバイアス(Semantic Bias)である。
これらの知見に基づいて,能動的に知覚を探索・補正することでMLLMを強化するトレーニングフリーフレームワークであるActiveScopeを提案する。
ActiveScopeには2つのモジュールがある。
Semantic Anchor Localization (SAL)は、キーターゲットを独立にローカライズし、セマンティックバイアスを軽減するために、きめ細かいセマンティックアンカーを使用する。
Interference-Suppressed Refinement (ISR) は、文脈的支配を克服するために、有意義な注意を抑えることで、ローカライゼーションを洗練させる。
高解像度画像理解ベンチマークに関する大規模な実験により、ActiveScopeは既存のトレーニング不要の手法(例えば$V^{*}$ Benchの96.34パーセントの精度)より優れており、アクティブ検索と自己補正のパラダイムの優位性を検証している。
私たちのコードはhttps://github.com/jasmine-ww/ActiveScope.comで利用可能です。
関連論文リスト
- VPTracker: Global Vision-Language Tracking via Visual Prompt and MLLM [45.56517073754981]
Vision-Language Trackingは、ビジュアルテンプレートと言語記述によって記述されたオブジェクトを継続的にローカライズすることを目的としている。
しかし、既存の手法は通常、局所的な探索に限られており、視点の変化の下で失敗する傾向がある。
我々は,多モーダル大言語モデル(VPTracker)に基づく最初のグローバルな追跡フレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-28T06:12:28Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs [29.198301196459834]
MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。
20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
論文 参考訳(メタデータ) (2025-10-17T08:17:27Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。