Fugu-MT 論文翻訳(概要): MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

論文の概要: MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias

arxiv url: http://arxiv.org/abs/2606.17953v1
Date: Tue, 16 Jun 2026 14:05:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.469108
Title: MLLMs Get It Right, Then Get It Wrong: Tracing and Correcting Late-Layer Textual Bias
Title（参考訳）: MLLMは正しいと判断し、間違いを正す:後期のテキストバイアスの追跡と修正
Authors: Xingming Li, Ao Cheng, Qiyao Sun, Xixiang He, Xuanyu Ji, Runke Huang, Qingyong Hu,
Abstract要約: マルチモーダル大言語モデル(MLLM)は、画像が明確な証拠を提供する場合でも、一貫してテキストを好む。このバイアスは、視覚的な接地を必要とするアプリケーションにリスクをもたらすが、その原因は不明である。 CALRD(Conflict-Aware Layer Reference Decoding)は、推論時に予測を復元する訓練不要な手法である。
参考スコア（独自算出の注目度）: 13.37512434635989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When vision contradicts text, multimodal large language models (MLLMs) consistently favor text, even when images provide clear evidence otherwise. This bias poses risks for applications requiring visual grounding, yet its cause remains unclear. In this paper, we uncover a surprising finding: models often get it right initially, forming correct vision-based predictions in their intermediate layers, before changing their minds and favoring text in the final output. We call this "late-layer textual override". The visual information is encoded, it simply does not survive to the output. More intriguingly, we find that how predictions change reveals whether they're correct: 85% of failures shift toward text, while 89% of successes shift toward vision. This directional signature enables a simple but powerful intervention: when we detect a confident visual prediction being suppressed, we restore it. We propose CALRD (Conflict-Aware Layer Reference Decoding), a training-free method that recovers overridden predictions at inference time. Experiments across five MLLMs of varying architectures demonstrate up to 9.4% absolute improvements on conflict benchmarks while largely preserving standard performance, without training or external knowledge. It recovers what the model already knew but failed to preserve.
Abstract（参考訳）: 視覚がテキストと矛盾する場合、画像が明確な証拠を提供する場合でも、MLLM(Multimodal large language model)は一貫してテキストを好む。このバイアスは、視覚的な接地を必要とするアプリケーションにリスクをもたらすが、その原因は不明である。本稿では、モデルがまず最初に正しく取得され、その中間層で正しい視覚ベースの予測が生成され、その後、心を変え、最終的な出力でテキストが好まれる、という驚くべき発見を明らかにする。これを "late-layer textual override" と呼ぶ。視覚情報は符号化され、単に出力に生存しない。失敗の85%がテキストに、成功の89%がビジョンに移行しています。この方向のシグネチャは、シンプルだが強力な介入を可能にします。確実な視覚的予測が抑制されていることを検知すると、それを復元します。 CALRD(Conflict-Aware Layer Reference Decoding)は,推論時にオーバーライド予測を復元する訓練不要な手法である。異なるアーキテクチャの5つのMLLMに対する実験では、競合ベンチマークにおいて9.4%の絶対的な改善が示され、トレーニングや外部知識を使わずに、ほぼ標準性能を保っている。モデルが既に知っていることを回復するが、保存に失敗する。

関連論文リスト

Data, Not Model: Explaining Bias toward LLM Texts in Neural Retrievers [76.92519309816008]
近年の研究では、ニューラルレトリバーは、人間が書いたものよりもLSMが生成する経路を優先して、ソースバイアスをしばしば示している。このバイアスはレトリバーの固有の欠陥と考えられており、現代の情報アクセスシステムの公平性と信頼性に関する懸念を提起している。我々の研究は、ソースバイアスがモデル自体ではなく、検索データセットの監督に起因していることを示すことで、この見解に挑戦する。
論文参考訳（メタデータ） (2026-04-07T17:57:07Z)
Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models [14.752088383510788]
視覚言語モデル(VLM)はしばしばテキストのみの入力にデプロイされるが、画像で訓練されている。視覚的モダリティを除去すると精度が大きく低下し、誤校正が厳しくなり、テキストのみのプロンプトでは元の言語バックボーンのように動作しないことがわかった。我々は,テキスト入力から遅延埋め込みを予測し,ピクセルレベルの画像合成を行なわずに凍結したVLMバックボーンに供給する軽量なクロスアテンションモジュールであるLatent Imagination Module (LIM)を提案する。
論文参考訳（メタデータ） (2026-04-03T10:03:02Z)
ViLU: Learning Vision-Language Uncertainties for Failure Prediction [42.22422504877948]
我々は、新しいビジョンランゲージ不確実性定量化フレームワークであるViLUを紹介する。 ViLUは、視覚埋め込み、予測されたテキスト埋め込み、およびクロスアテンションによる画像条件付きテキスト表現を統合することで、不確実性を考慮したマルチモーダル表現を構築する。提案手法は,視覚とテキストの埋め込みのみをモデル自体に直接アクセスすることなく利用できる,ポストホックな設定に適している。
論文参考訳（メタデータ） (2025-07-10T10:41:13Z)
An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文参考訳（メタデータ） (2023-11-13T17:01:12Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
Adversarial Watermarking Transformer: Towards Tracing Text Provenance with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。 AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文参考訳（メタデータ） (2020-09-07T11:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。