論文の概要: LOCUS: Local Visual Cue Search for Enhancing Fine-Grained Perception in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2606.16586v1
- Date: Mon, 15 Jun 2026 11:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.485125
- Title: LOCUS: Local Visual Cue Search for Enhancing Fine-Grained Perception in Multimodal Large Language Models
- Title(参考訳): LOCUS:マルチモーダル大言語モデルにおける微粒化知覚の強化のためのローカルビジュアルキュー検索
- Authors: Zhou Tao, Fang Zhang, Zewen Ding, Shida Wang, Xiaokun Sun, YongXiang Hua, Haoyu Cao, Linli Xu,
- Abstract要約: LOCUS(Local visual CUe Search)は,MLLMに対して,検証可能なプロキシタスクを通じてローカルエビデンス検索を内部化するためのトレーニングフレームワークである。
微粒な知覚、幻覚、一般的な理解、推論のベンチマークによる実験は、LOCUSが広い能力を維持しながら、局所感応的な視覚的理解を改善していることを示している。
- 参考スコア(独自算出の注目度): 21.829417703807554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) remain unreliable on fine-grained visual perception, even when high-resolution inputs preserve the necessary local details. We identify this limitation as visual context rot: decisive evidence may exist in the full image, yet fail to be reliably selected and used amid redundant visual context. We propose LOCUS (LOcal visual CUe Search), a training framework that teaches MLLMs to internalize local evidence search through a verifiable proxy task. During training, LOCUS provides a local crop as a visual cue and optimizes the model to recover its spatial support in the full image using an IoU-based reward. The visual cue is used only during training, leaving the standard image-question inference interface unchanged. Experiments across fine-grained perception, hallucination, general understanding, and reasoning benchmarks show that LOCUS improves localization-sensitive visual understanding while preserving broad capabilities. Attention analyses further indicate stronger focus on task-relevant evidence regions, suggesting that training-time visual cue search provides an effective route to internalized fine-grained evidence selection.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、高解像度の入力が必要な局所的な詳細を保持する場合でも、きめ細かな視覚知覚には信頼できないままである。
決定的な証拠は全画像に存在するが、冗長な視覚的コンテキストの中で確実に選択され、使用されない。
LOCUS(Local visual CUe Search)は,MLLMに対して,検証可能なプロキシタスクを通じてローカルエビデンス検索を内部化するためのトレーニングフレームワークである。
トレーニング中、LOCUSは局所的な作物を視覚的キューとして提供し、IoUベースの報酬を使用して全画像の空間的サポートを回復するためにモデルを最適化する。
ビジュアルキューはトレーニング時にのみ使用され、標準的な画像検索推論インターフェースは変更されていない。
微粒な知覚、幻覚、一般的な理解、推論のベンチマークによる実験は、LOCUSが広い能力を維持しながら、局所感応的な視覚的理解を改善していることを示している。
注意分析は、タスク関連エビデンス領域へのより強い焦点を示し、トレーニングタイムの視覚的キュー探索が、内部化されたきめ細かいエビデンス選択への効果的な経路を提供することを示唆している。
関連論文リスト
- Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models [27.14308995992974]
事前訓練されたMLLMがマルチモーダルなエビデンスをどのように利用するかを改善するトレーニング不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。
LoTは、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付けられた回答を生成する。
複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-04-01T18:00:08Z) - Focus, Don't Prune: Identifying Instruction-Relevant Regions for Information-Rich Image Understanding [15.310650411597727]
PinPointは、まず命令関連の画像領域を特定し、それを洗練して、きめ細かい視覚的特徴を抽出するフレームワークである。
新しいアノテーションは、挑戦的なVQAベンチマークにまたがる命令関連領域に対して、よりリッチな地味な監視を提供する。
論文 参考訳(メタデータ) (2026-03-24T05:37:01Z) - Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment [19.113214017897118]
Cross-Domain Few-Shot Learningは、大規模な汎用データ(ソースドメイン)でトレーニングされたモデルを、少ないトレーニングデータだけで、下流のターゲットドメインに適応させる。
CLIPモデルは、解釈可能な認識のためのきめ細かい視覚的手がかりにはほとんど焦点を合わせられない。
この問題に対処するために、局所的な視覚的特徴とテキスト意味論の整合性に監督が欠如しているため、私たちは自己監督情報に目を向ける。
論文 参考訳(メタデータ) (2026-03-18T12:20:21Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。