論文の概要: Vision-Language Asymmetry in Bistable Image Captioning
- arxiv url: http://arxiv.org/abs/2606.08031v1
- Date: Sat, 06 Jun 2026 07:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.676331
- Title: Vision-Language Asymmetry in Bistable Image Captioning
- Title(参考訳): バイスタブル画像キャプションにおけるビジョンランゲージ非対称性
- Authors: Arohan Agate,
- Abstract要約: モデルが曖昧なイメージをキャプションする場合,そのモデルでは,ひとつの側面へのコミットメントがどこにあるのかを示す。
視界当たりの2つの特徴プールを持つ69個のバイスタブル刺激のうち、72%は視界塔で両方のプールが同時に活性化していることを示している。
視覚塔の下流には支配的ボトルネックがあり、視覚的側面の表現と言語的側面のコミットメントのギャップは、見る/見る/見るの区別に関する実証的なハンドラである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wittgenstein's duck-rabbit poses a question for vision-language models: when a model captions an ambiguous image, where in the model is the commitment to one aspect made? We address this with a 3,320-generation behavioral baseline over 83 bistable stimuli that surfaces three regimes (default-dominant, force-dominant, force-balanced) under neutral vs forced-choice prompting, then probe the underlying representations using a TopK sparse autoencoder we train on the CLIP layer that LLaVA-1.6-7B actually consumes (validation EV 0.93). Across 69 bistable stimuli with both per-aspect feature pools available, 72% (50/69) show simultaneous activation of both pools at the vision tower, including 12/12 default-dominant duck/rabbit and 7/8 force-balanced young/old. Causal steering at CLIP layer 22 flips captions on default-dominant stimuli (33% rabbit-flip rate under a fluency guard) but cannot flip captions on force-balanced young/old at any tested coefficient, despite their vision-side superposition. The dominance bottleneck lives downstream of the vision tower; the gap between vision-side representation and language-side commitment is an empirical handle on the seeing/seeing-as distinction. We also flag a methodological note: rank-based statistics on TopK SAE outputs require tie-corrected ranking to avoid silent row-order bias.
- Abstract(参考訳): モデルが曖昧なイメージをキャプションする時、モデルの中で1つの側面へのコミットメントはどこにあるのか?
LLaVA-1.6-7Bが実際に使用するCLIP層上でトレーニングしたTopKスパースオートエンコーダを用いて,3つの状態(デフォルト・ドミナント,フォース・ドミナント,フォース・バランス)を中立的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的・強制的)を探索する,83以上のバイスタブル刺激による3,320世代の行動ベースラインに対処する。
72% (50/69) は、12/12のデフォルト支配のアヒル/ラビットと7/8の力バランスの若い/oldを含む、両プールの視覚塔での同時活性化を示す。
CLIP層22の因果操舵は、デフォルト支配的な刺激(33%のウサギフリップ率)でキャプションを反転させるが、視覚面の重畳にもかかわらず、任意のテスト係数で力バランスのある若年/高齢者のキャプションを反転させることはできない。
視覚塔の下流には支配的ボトルネックがあり、視覚的側面の表現と言語的側面のコミットメントのギャップは、見る/見る/見るの区別に関する実証的なハンドラである。
また、TopK SAE出力のランクに基づく統計は、無声行順バイアスを避けるために、タイ補正されたランク付けを必要とする。
関連論文リスト
- When Eyes Betray AI: Social Gaze Consistency as a Semantic Cue for AI-Generated Image Detection [12.446807294893638]
本稿では,視線方向の相互コヒーレンス,頭部アライメント,対人関係の瞳孔配置として定義された高レベルの意味的キューであるソーシャル・ゲイズ・コンシステンシーを紹介する。
既存の低レベルパラダイムに対して,これまで未利用であった検出軸を構成することを示す。
4ステップのアカウントでは、単一インパインター(FLUX.1-Fill)のトレーニングがマルチジェネレータスイートに移行した理由が説明されている。
論文 参考訳(メタデータ) (2026-05-26T17:50:17Z) - In-Context Fixation: When Demonstrated Labels Override Semantics in Few-Shot Classification [4.738949927143789]
その結果, 同種ラベルは意味論的に有効なものであっても, 6つのモデルで12%の精度で崩壊することがわかった。
モデルはラベル位置を占めるトークンを、徹底的な回答語彙として扱う。
論文 参考訳(メタデータ) (2026-05-08T10:20:39Z) - Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models [0.7919969809015935]
VLM(Vision-Language Models)は、入力画像に存在しないオブジェクトを幻覚させる。
本研究では,SCR (Spatial Credit Redistribution) を提案する。
SCRは幻覚の低減、生成品質、遅延のトレードオフを改善する。
論文 参考訳(メタデータ) (2026-02-25T23:08:31Z) - Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning [11.021067780524348]
推論において視覚的エビデンスがどのように統合されているかは、いまだに理解されていない。
本稿では,高結合性トークンを選択的に強化する軽量フレームワークであるAnchor-Token Reinforcement Learning (AT-RL)を提案する。
我々の研究は、推論の品質はトークン量ではなく、クロスモーダルアンカーの忠実さによって管理されていることを明らかにしている。
論文 参考訳(メタデータ) (2026-02-12T00:20:54Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
半教師付きFERのための表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusing (LEAF)を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。