論文の概要: Magnifying What Matters: Attention-Guided Adaptive Rendering for Visual Text Comprehension
- arxiv url: http://arxiv.org/abs/2606.12898v1
- Date: Thu, 11 Jun 2026 04:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.585512
- Title: Magnifying What Matters: Attention-Guided Adaptive Rendering for Visual Text Comprehension
- Title(参考訳): 意味を拡大する:視覚テキスト理解のための注意誘導適応レンダリング
- Authors: Shenglai Zeng, Qirui Wang, Kai Guo, Xinnan Dai, Xianxuan Long, Hui Liu,
- Abstract要約: Visual TextGuided (VTC)は、視覚言語モデル(VLM)のための画像にテキストをレンダリングする
既存のVTCパイプラインは、レンダリングとレイアウトを、固定されたコンテンツに依存しない前処理ステップとして扱う。
- 参考スコア(独自算出の注目度): 13.38620365388965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Text Comprehension (VTC) renders text into images for a vision-language model (VLM) to read, sidestepping LLM context-window limits and powering applications from long-page OCR to multi-page memory QA. Yet existing VTC pipelines treat rendering and layout as a fixed, content-agnostic preprocessing step and offer little mechanistic understanding of how VLMs internally process visualized text. Through a focused empirical study on VTC QA tasks, we reveal that VLMs exhibit a localization-without-utilization regime: evidence-localizing attention emerges sharply in the middle-to-late layers and is largely decoupled from answer correctness, yet simply enlarging the localized spans on the rendered page recovers a large fraction of the failures. Building on these observations, we propose AGAR (Attention-Guided Adaptive Rendering), a training-free, model-agnostic method that leverages a VLM's own middle-to-late layer attention to identify the top-K important visual patches, maps them back to word spans, and re-renders the page with those spans enlarged before re-inferring the answer. Extensive experiments across nine VTC benchmarks (short-form, long-context, and multi-page memory QA) and four VLM backbones show that AGAR (i)consistently improves off-the-shelf VLMs as a plug-and-play enhancement, (ii)composes with VLM post-training to yield further gains, and (iii)remains robust under both visual- and text-side input degradation.
- Abstract(参考訳): Visual Text Comprehension (VTC)は、視覚言語モデル(VLM)のための画像にテキストをレンダリングし、LLMコンテキストウィンドウの制限を読み出し、長ページのOCRからマルチページのメモリQAへのアプリケーションを動かす。
しかし、既存のVTCパイプラインは、レンダリングとレイアウトを、固定されたコンテンツに依存しない事前処理ステップとして扱い、VLMが内部的に視覚化されたテキストをどのように処理するかの機械的な理解をほとんど提供しない。
VLMは中~後期の層に急激な局所化注意が出現し、解答の正しさから大きく切り離されるが、描画されたページ上の局所化スパンを拡大するだけで、失敗の大部分が回復する。
これらの観測に基づいて,本手法は,VLMの中間から後期の層への注意を生かし,上位Kの重要な視覚パッチを特定し,それらを単語スパンにマップし,ページを拡大して再描画する学習自由でモデルに依存しない手法であるAGAR(Attention-Guided Adaptive Rendering)を提案する。
9つのVTCベンチマーク(ショートフォーム、ロングコンテキスト、マルチページメモリQA)と4つのVLMバックボーンによる大規模な実験は、AGARが示す。
(i)プラグ・アンド・プレイ・エンハンスメントとしてオフ・ザ・シェルフVLMを一貫して改善する。
(ii)VLM後処理により更なる利得を得る、及び
(iii)視覚面とテキスト面の両方の入力劣化下では頑健である。
関連論文リスト
- VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。