論文の概要: PhaseWin: An Efficient Search Algorithm for Faithful Visual Attribution
- arxiv url: http://arxiv.org/abs/2606.18008v1
- Date: Tue, 16 Jun 2026 14:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.496805
- Title: PhaseWin: An Efficient Search Algorithm for Faithful Visual Attribution
- Title(参考訳): PhaseWin: 忠実な視覚属性の効率的な探索アルゴリズム
- Authors: Zihan Gu, Ruoyu Chen, Junchi Zhang, Li Liu, Xiaochun Cao, Hua Zhang,
- Abstract要約: 忠実な視覚帰属のための効率的なサブセット探索アルゴリズムであるフェイズウィンを提案する。
PhaseWinは、greedy領域の選択をフェーズドウィンドウ検索手順に再編成する。
グローバルな候補スクリーニング、適応プルーニング、および局所的なウィンドウリファインメントを交互に行う。
- 参考スコア(独自算出の注目度): 47.17749653856941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual attribution is a fundamental tool for interpreting modern vision and vision-language models, particularly when their decisions must be inspected, diagnosed, or audited. Its goal is to explain how a model's decision depends on local regions of the visual input, typically by assigning an importance ordering over candidate image regions. Given an image partitioned into $n$ regions, faithful attribution can be cast as an ordered subset-search problem, in which progressively inserting the selected regions should recover the target model response as early as possible. Exhaustive search over region subsets incurs exponential cost, while the widely used greedy search still requires a quadratic number of model evaluations, because every selection step rescores all remaining candidates. We propose PhaseWin, an efficient subset-search algorithm for faithful visual attribution. PhaseWin reorganizes greedy region selection into a phased window-search procedure: rather than re-evaluating the full candidate set at every step, it alternates between global candidate screening, adaptive pruning, and localized window refinement, while preserving the essential region-ranking behavior of greedy search. We analyze PhaseWin under monotone evidence-accumulation conditions and show that, under feature-level structural assumptions, it attains controllable linear evaluation complexity together with near-greedy faithfulness guarantees. Extensive experiments on image classification, object detection, visual grounding, and image captioning show that, among all compared attribution methods, PhaseWin reaches high faithfulness with the fewest forward passes, empirically realizing the predicted reduction from $O(n^2)$ to $O(n)$. The code is available at https://github.com/Qihuai27/phasewin-va.
- Abstract(参考訳): 視覚属性は、現代の視覚と視覚言語モデルを解釈するための基本的なツールであり、特にその決定を検査、診断、監査しなければならない場合である。
その目的は、モデルの決定が視覚入力の局所領域にどのように依存するかを説明することである。
画像が$n$の領域に分割された場合、忠実な帰属は順序付けられたサブセット探索問題としてキャストされ、選択された領域を段階的に挿入すると、できるだけ早くターゲットモデルの応答が回復される。
領域部分集合に対する排他的探索は指数的なコストを発生させるが、広く使われている欲求探索は、すべての選択ステップが残りの候補を再スコアするので、2次的なモデル評価を必要とする。
忠実な視覚帰属のための効率的なサブセット探索アルゴリズムであるフェイズウィンを提案する。
フェーズWinは、greedy領域の選択を段階的なウィンドウ検索手順に再編成する: 全てのステップで設定された完全な候補を再評価する代わりに、グローバルな候補スクリーニング、適応プルーニング、局所的なウィンドウリファインメントを交互に行い、greedy検索の本質的な領域レベルの動作を保存する。
単調なエビデンス・蓄積条件下でのフェイズウィンドの解析を行い,特徴レベルの構造的仮定の下では,制御可能な線形評価の複雑さと,ほぼ灰色の忠実性の保証が得られることを示した。
画像分類, 物体検出, 視覚的接地, 画像キャプションの広範な実験により, 相Winは最も少ない前方通過で高い忠実度を達成し, 予測されたO(n^2)$から$O(n)$への還元を実証的に実現した。
コードはhttps://github.com/Qihuai27/phasewin-vaで公開されている。
関連論文リスト
- CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception [41.63801808635565]
CVSearchは、Assess-then-Searchワークフローを介して検索戦略をスケジュールする、トレーニング不要適応フレームワークである。
CVSearchはまず,グローバル情報が不十分な場合に専門家支援検索を起動する。
HRベンチマーク実験により,CVSearchは最先端の精度を実現し,検索効率を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-05-22T14:07:44Z) - Adaptive Generate-Rank-Verify: Inference-Time Search with Costly Verification [8.614387395852896]
我々は、学習理論レンズを生成能動探索として用いて、コスト感受性の第1正探索問題を定式化する。
固定プロンプトでは、ジェネレータと報酬モデルが2つの未知のオブジェクトを誘導する。
本稿では,サンプル応答数やトップランク検証を段階的に増加させる,シェルワイズ適応型生成ランク検証アルゴリズムADAPを提案する。
論文 参考訳(メタデータ) (2026-05-17T19:10:30Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文 参考訳(メタデータ) (2025-12-12T11:39:35Z) - TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:14:26Z) - PhaseWin Search Framework Enable Efficient Object-Level Interpretation [48.30293957298944]
PhaseWinは、忠実な地域帰属のための位相ウィンドウ探索アルゴリズムである。
PhaseWinは、従来の2次コストのグリーディ選択を、粗い粗い検索に置き換える。
計算予算の20%しか使わず、95%以上の欲求帰属忠実を達成している。
論文 参考訳(メタデータ) (2025-11-14T03:02:52Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。