論文の概要: Attention Alignment Between Humans and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.17410v1
- Date: Tue, 16 Jun 2026 01:47:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.203971
- Title: Attention Alignment Between Humans and Vision-Language Models
- Title(参考訳): 人間と視覚・言語モデルとの意識アライメント
- Authors: Isaac R. Christian, Udith Haputhanthrige, Hanna Hornfeld, Declan Campbell, Samuel Nastase, Taylor Webb, Michael Graziano,
- Abstract要約: 我々は6つの視覚言語モデルからの空間的注意マップと200枚の画像に記録された人間の定着熱マップを比較した。
デコーダとエンコーダアーキテクチャの両方がアライメントを形成するが、デコーダの選択は支配的であった。
CNN vs. ViTエンコーダはデコーダファミリによって2次5-20の優位性をもたらし、CNN-LSTMは全体として最も整合したモデルであった。
- 参考スコア(独自算出の注目度): 0.3623256034916607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perception depends on top-down goals and bottom-up sensory mechanisms. Vision-language models implement both, allowing us to treat each component as a separable hypothesis about what drives where we look. We compared spatial attention maps from six vision-language models against human fixation heatmaps recorded on 200 images during two tasks (general description and social captioning). The six models spanned a 2$\times$2 factorial of CNN vs.\ ViT encoders crossed with LSTM vs.\ Transformer decoders, plus Molmo 7B-D and Qwen3.5 9B. We found that both decoder and encoder architecture shaped alignment, but decoder choice dominated. LSTM vs.\ Transformer decoders increased alignment by 40--50 percentage points (80--87\% vs.\ 40--59\% of the human noise ceiling). In contrast, CNN vs.\ ViT encoders contributed a secondary 5--20 point advantage depending on decoder family, with CNN-LSTM the most aligned model overall (85--87\%). Despite their alignment advantage, LSTM-decoder attention maps were spatially diffuse and minimally task-differentiated; ViT-Transformer, the weakest in alignment, showed the sharpest spatial concentration and strongest task differentiation. A hemispatial-neglect simulation confirmed that ablating attention impacted LSTM decoders more than Transformer decoders. In an exploratory extension using TRIBE-simulated synthetic neural responses, fixation alignment and neural relevance dissociate: CNN-Transformer attention maps better predicted synthetic brain activity despite lower fixation alignment, with attention maps best predicting early visual cortex. Together, top-down and bottom-up components trade off what they predict in behavioral and synthetic neural data.
- Abstract(参考訳): 視覚知覚はトップダウンの目標とボトムアップの感覚メカニズムに依存する。
ビジョン言語モデルは両方を実装しており、各コンポーネントを、どのように見えるかに関する分離可能な仮説として扱うことができます。
我々は,6つの視覚言語モデルから得られた空間的注意マップと,2つの課題(一般的な説明と社会的キャプション)の間に200の画像に記録されたヒトの定着熱マップを比較した。
6機種はCNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN対CNN。
\ ViTエンコーダはLSTM vs。
\ Transformerデコーダ、Momo 7B-D、Qwen3.5 9B。
デコーダとエンコーダアーキテクチャの両方がアライメントを形成するが、デコーダの選択は支配的であった。
LSTM vs。
\トランスフォーマーデコーダのアライメントは40--50ポイント(80--87\% vs。
対照的に、CNN vs.\ ViTエンコーダはデコーダファミリーによって第2の5-20点のアドバンテージをもたらし、CNN-LSTMは全体として最も整列したモデル(85-87-%)である。
そのアライメントの優位性にもかかわらず、LSTMデコーダのアテンションマップは空間的に拡散し、最小限にタスク分化し、アライメントにおいて最も弱いViT-Transformerは、最も鋭い空間集中と最強のタスク分化を示した。
半空間ネグレクトシミュレーションにより、注意を損なうことがトランスフォーマーデコーダよりもLSTMデコーダに影響を与えたことが確認された。
CNN-Transformer attention map better predict synthetic brain activity while lower fixation alignment, and attention map best predicting early visual cortex。
トップダウンとボトムアップのコンポーネントは、行動および合成ニューラルデータで予測されるものを交換する。
関連論文リスト
- MindAlign: Bridging EEG, Vision, and Language for Zero-Shot Visual Decoding [36.958608375007124]
脳信号からの視覚的復号化は、コンピュータビジョンと神経科学の交差において重要な課題である。
本稿では,脳波,視覚,テキスト表現の整合性を考慮した,脳波に基づく視覚的デコーディングのための3モーダルコントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-23T11:23:21Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation [0.46040036610482665]
MaxViT-UNetは医療画像セグメンテーションのためのハイブリッドビジョントランス (CNN-Transformer) である。
提案するハイブリッドデコーダは,各復号段階における畳み込み機構と自己保持機構の両方のパワーを利用するように設計されている。
復号器の各段階における多軸自己アテンションの包含は、対象領域と背景領域の識別能力を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-15T07:23:54Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos [49.337912335944026]
ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
論文 参考訳(メタデータ) (2021-08-23T10:48:18Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。