Fugu-MT 論文翻訳(概要): Gaze Heads: How VLMs Look at What They Describe

論文の概要: Gaze Heads: How VLMs Look at What They Describe

arxiv url: http://arxiv.org/abs/2606.14703v1
Date: Fri, 12 Jun 2026 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:43.034619
Title: Gaze Heads: How VLMs Look at What They Describe
Title（参考訳）: Gaze Heads:VLMはどのように説明をするか
Authors: Rohit Gandikota, David Bau,
Abstract要約: 視覚言語モデルが画像記述のタスクを内部的にどのように解決するかを示す。私たちは、その言語モデルバックボーンに小さな注意の頭があります。テストベッドとしてコミックストリップを用いて,数回のフォワードパスから単純な相関スコアを求める。
参考スコア（独自算出の注目度）: 26.21070624480139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How a vision-language model internally solves the task of describing an image is far from obvious. We find that the model develops a specific mechanism for this: a small set of attention heads in its language-model backbone, which we call gaze heads, whose attention tracks the image region the model is currently describing. We find them with a simple correlation score from a few forward passes, using comic strips as a controlled testbed where narrative order is laid out spatially. These gaze heads do not just track the image tokens being described: redirecting their attention to a chosen region forces the VLM to describe that region instead. A single attention-mask intervention on the top-100 gaze heads, fewer than 9% of all heads, steers the model's answer to any chosen comic panel at 83.1% accuracy, while the same intervention on random heads fails to redirect the answer, and intervening on all heads destroys generation. The same lever also extends to continuous control: switching the gaze target mid-generation makes the model wrap up its current panel description and move to the new one within a few tokens. Beyond comics, the same intervention redirects answers to chosen regions in natural COCO images. The mechanism further recurs across model sizes from 2B to 32B parameters and across other VLM architectures, although some frozen-encoder families show no comparable head set. More broadly, this shows that targeted edits identified through mechanistic analysis can serve as practical inference-time levers for steering multimodal model behavior, without any retraining. Our code, interactive demo, and datasets are available at https://gaze.baulab.info/
Abstract（参考訳）: 視覚言語モデルは、画像を記述するタスクを内部的にどのように解決するかは、明らかになっていない。このモデルには、言語モデルバックボーンに小さなアテンションヘッドが組み込まれており、このヘッドは、現在モデルが記述している画像領域を追跡している。数回の前方通過から得られた単純な相関スコアを用いて,物語の順序を空間的に配置する制御テストベッドとして,漫画のストリップを用いた。これらの視線ヘッドは、記述されている画像トークンを追跡するだけでなく、選択された領域に注意を向けることで、VLMはその領域を記述するように強制する。トップ100の視線ヘッドに対する1つの注意-マスク介入、全ヘッドの9%未満であり、選択されたコミックパネルに対するモデルの回答を83.1%の精度で操縦する一方、ランダムなヘッドに対する同じ介入は答えをリダイレクトできず、全てのヘッドへの介入は生成を損なう。同じレバーは、連続的な制御にも拡張される: 世代中頃の視線ターゲットを切り替えることで、モデルが現在のパネル記述をラップし、いくつかのトークンで新しいものに移行する。漫画以外にも、同じ介入によって、自然のCOCO画像の中で選択された領域に回答をリダイレクトする。この機構はモデルサイズを2Bから32Bパラメータにまたがり、他のVLMアーキテクチャにも再帰する。より広義には、機械的解析によって特定されたターゲット編集は、再訓練することなく、マルチモーダルモデルの振る舞いを操る実用的な推論時レバーとして機能することを示している。私たちのコード、インタラクティブなデモ、データセットはhttps://gaze.baulab.info/で公開されています。

関連論文リスト

SceneMiner: Identity-Preserving Multi-Task Fine-Tuning for Unified BEV Scene Mining [2.4089107936585235]
SceneMinerはカメラ専用のパイプラインで、凍結した視覚言語で書かれたバックボーンから補完的なマイニング信号を出力する。テキストプロンプトされたシナリオ検索、複数ラベルのシーンタグの配信、連続的な物理ベースのリスクスコアをサポートする。我々の貢献は、アイデンティティを保存するマルチタスクの微調整であり、新しいすべてのサブモジュールをゼロ初期化することで、この干渉を取り除く。
論文参考訳（メタデータ） (2026-06-09T22:59:41Z)
Learning to See What You Need: Gaze Attention for Multimodal Large Language Models [96.20985292033465]
本稿では,世代別タスク関連視覚領域へのMLLMの選択的参加を可能にする新しいメカニズムであるGaze Attentionを紹介する。注意計算では、視線KVエントリが最大90%少ないのに対して、視線アテンションは高密度アテンションベースラインと一致または超過していることが示される。
論文参考訳（メタデータ） (2026-05-13T06:54:09Z)
ImHead: A Large-scale Implicit Morphable Model for Localized Head Modeling [71.3859346921118]
imHeadは、表現力のある3Dヘッドアバターだけでなく、顔の特徴の局所的な編集を容易にする新しい3DMMである。 imHeadをトレーニングするために、4Kの異なるアイデンティティの大規模なデータセットをキュレートする。
論文参考訳（メタデータ） (2025-10-12T20:17:34Z)
Understanding In-context Learning of Addition via Activation Subspaces [73.8295576941241]
そこで本研究では,入力に整数$k$を追加するという真の予測規則を,数ショット学習タスクの構造化されたファミリについて検討する。次に、次元の減少と分解を通じて、個々の頭部の詳細な分析を行う。この結果から,前進パスを横断する局所化頭部の低次元部分空間の追跡が,言語モデルにおける微粒化計算構造に対する洞察を与えることを示す。
論文参考訳（メタデータ） (2025-05-08T11:32:46Z)
Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文参考訳（メタデータ） (2024-07-21T00:10:23Z)
LPMM: Intuitive Pose Control for Neural Talking-Head Model via Landmark-Parameter Morphable Model [8.439049188810166]
トレーニング済みのニューラルトーキングヘッドモデル上での頭部方向と表情のパラメトリック制御を利用する新しい手法を提案する。他の顔の特徴を歪ませることなく、特定の頭部ポーズ因子を調整することができる。
論文参考訳（メタデータ） (2023-05-17T06:11:21Z)
Mask-Based Modeling for Neural Radiance Fields [20.728248301818912]
本研究では,マスクベースモデリングにより3次元暗黙表現学習を大幅に改善できることを明らかにする。 MRVM-NeRFは,各光線に沿った部分的マスキング特徴から,シーンの完全な表現を予測するための自己教師付き事前学習対象である。この事前学習目標により、MRVM-NeRFは、幾何学的先行として異なる点とビュー間の相関をよりよく利用することができる。
論文参考訳（メタデータ） (2023-04-11T04:12:31Z)
Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。 2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文参考訳（メタデータ） (2022-07-19T03:31:13Z)
Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文参考訳（メタデータ） (2020-10-23T11:18:37Z)
Spatial Attention as an Interface for Image Captioning Models [0.0]
神経画像キャプションモデルを用いて,その空間的注意における外的変化に対する反応を測定した。実験の結果、キャプションモデルが52.65%までのメソッド依存的な変化に反応することが示されている。単語,フレーズ,質問レベルの空間的注意を抽出することで,視覚的質問応答のための階層的共注意ネットワークへのリンクを確立した。
論文参考訳（メタデータ） (2020-09-29T16:04:08Z)
On the Importance of Local Information in Transformer Based Models [19.036044858449593]
自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
論文参考訳（メタデータ） (2020-08-13T11:32:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。