論文の概要: Look Before You Zoom: Adaptive Routing for the Resolution-Context Trade-off in Visual RAG
- arxiv url: http://arxiv.org/abs/2606.21968v1
- Date: Sat, 20 Jun 2026 09:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:29:49.842939
- Title: Look Before You Zoom: Adaptive Routing for the Resolution-Context Trade-off in Visual RAG
- Title(参考訳): Zoomの前に見てみましょう: Visual RAGにおける解像度コンテキストトレードオフのための適応的なルーティング
- Authors: Oanh N. Tran, Thanh Quoc Hung Le, Oscar Chew, Kuan-Hao Huang, Khoa D. Doan,
- Abstract要約: ViRGo(Visual Retrieval、Global Perception)は、視覚検索を適応的なルーティング問題として定式化する軽量なフレームワークである。
ViRGoは、小さな細部でのパッチ検索にマッチし、より大きなオブジェクトに対する注意に基づく検索を活用し、ズームが不要な場合のグローバルベースラインへのルーティングによる推論時間を短縮する。
- 参考スコア(独自算出の注目度): 15.505784631617418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) struggle as query-relevant objects become smaller. To address this, recent training-free approaches dynamically retrieve and zoom into local image regions. However, we show that indiscriminately applying retrieval ignores a critical vulnerability: the resolution-context trade-off. Patch-based zooming recovers details for small targets, but can split large objects and destroy global spatial context; attention-based retrieval better preserves large objects, but remains less reliable on tiny details; and global perception is often fastest when retrieval is unnecessary. Motivated by these failure modes, we introduce ViRGo (Visual Retrieval or Global Perception), a lightweight framework that formulates visual retrieval as an adaptive routing problem. ViRGo estimates object scale from the VLM's intrinsic localization heads during the initial forward pass and combines it with semantic token confidence to select between global perception, patch-based retrieval, and attention-based retrieval with minimal additional computation. Experiments across multiple VQA benchmarks and object-size groups show that ViRGo improves the accuracy-efficiency trade-off: it matches patch retrieval on small details, leverages attention-based retrieval for larger objects, and reduces inference time by routing to the global baseline when zooming is unnecessary.
- Abstract(参考訳): VLM(Vision-Language Models)は、クエリ関連オブジェクトが小さくなるにつれて困難である。
これを解決するために、最近のトレーニングフリーアプローチは、ローカル画像領域を動的に検索してズームする。
しかし、非差別的に検索を適用することは重大な脆弱性を無視していることが示される。
パッチベースのズームは、小さなターゲットの細部を復元するが、大きなオブジェクトを分割し、グローバルな空間的コンテキストを破壊する。
これらの障害モードにより、適応的なルーティング問題として視覚検索を定式化する軽量フレームワークViRGo(Visual RetrievalまたはGlobal Perception)を導入する。
ViRGoは、VLMの固有のローカライゼーションヘッドから最初のフォワードパス中にオブジェクトスケールを推定し、それを意味トークンの信頼度と組み合わせて、グローバルな認識、パッチベースの検索、およびアテンションベースの検索を最小限の追加計算で選択する。
複数のVQAベンチマークとオブジェクトサイズグループによる実験により、ViRGoは精度と効率のトレードオフを改善し、小さな詳細でのパッチ検索と一致し、より大きなオブジェクトに対する注意ベースの検索を活用し、ズームが不要なときにグローバルベースラインにルーティングすることで推論時間を短縮する。
関連論文リスト
- Generalized Small Object Detection:A Point-Prompted Paradigm and Benchmark [54.91847070147244]
小さい物体検出(SOD)は、非常に限られたピクセルとあいまいな物体の境界のために難しいままである。
これらの特徴は、挑戦的なアノテーション、大規模な高品質データセットの可用性の制限、そして本質的に小さなオブジェクトに対する弱いセマンティック表現をもたらす。
本研究では,小型オブジェクト検出のための大規模マルチドメインデータセットTinySet-9Mを導入することで,データ制限に対処する。
論文 参考訳(メタデータ) (2026-04-03T06:32:18Z) - GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery [69.05066425853326]
シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:50:55Z) - Recurrent Cross-View Object Geo-Localization [23.685973292321574]
クロスビューオブジェクトジオローカライゼーション (CVOGL) は、問合せ画像と点プロンプトが与えられた場合の高解像度衛星画像における特定のオブジェクトの位置を決定することを目的としている。
本稿では,CVOGLをリカレント・ローカライゼーションタスクとして再構成したリカレント・クロスビュー・オブジェクトのジオローカライゼーション・トランスフォーマであるReCOTを提案する。
ReCOTは、クエリイメージからタスク固有の意図をエンコードし、埋め込みを促す一連の学習可能なトークンを導入し、予測された位置を洗練するための参照機能に反復的に参加する。
論文 参考訳(メタデータ) (2025-09-16T07:18:23Z) - Faster VGGT with Block-Sparse Global Attention [11.473406315508647]
本稿では,高度に最適化されたブロックスパースカーネルに基づくグローバルアテンション操作の置き換えを提案する。
バックボーンの再トレーニングは不要で、VGGTと$pi3$の両方に拡張され、大きなイメージコレクションをサポートします。
論文 参考訳(メタデータ) (2025-09-08T18:16:09Z) - PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation [9.713215680147583]
パノプティクスのセグメンテーションはコンピュータビジョンの基本課題であり、自動運転車の認識にとって重要な要素である。
最近のマスクトランスフォーマーベースの手法は、標準的なベンチマークでは素晴らしいパフォーマンスを達成しているが、小さなオブジェクト、混み合ったシーン、広範囲のオブジェクトスケールを示すシーンで重大な課題に直面している。
そこで我々は,PanSRを用いたパン光学セグメンテーション手法を提案する。PanSRは,インスタンスのマージを効果的に軽減し,小さなオブジェクト検出を向上し,混み合うシーンにおけるパフォーマンスを向上し,挑戦的なLaRSベンチマーク上での最先端のPQを,Cityscapesで最先端のパフォーマンスに到達しつつ,注目すべき+3.4PQ向上を実現した。
論文 参考訳(メタデータ) (2024-12-13T22:12:37Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。