Fugu-MT 論文翻訳(概要): Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

論文の概要: Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

arxiv url: http://arxiv.org/abs/2606.08894v1
Date: Mon, 08 Jun 2026 00:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.506926
Title: Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?
Title（参考訳）: 視覚領域モデルは意味的視覚障害にロバストか?
Authors: Yizheng Sun, Mochuan Zhan, Yanan Ma, Jia Tong See, Yifan Wang, Ziyi Wang, Hao Li, Yang Cui, Wenhao Cai, Jingyu Sun, Chenghua Lin, Riza Batista-Navarro, Jingyuan Sun,
Abstract要約: Reasoning Vision-Language Models (VLM) は複雑なマルチモーダルタスクにおいて高い性能を達成する。我々はtextbfDistract-Bench を導入した。これは、textbfsemantic visual distraction に対する VLM の堅牢性を評価するベンチマークである。以上の結果から,Distract-Benchは視力低下とは異なる堅牢性障害を呈することが明らかとなった。
参考スコア（独自算出の注目度）: 34.294060886423985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning Vision-Language Models (VLMs) achieve strong performance on complex multimodal tasks, but reliable real-world application requires handling visual inputs that are messier than clean, curated benchmarks. Existing works mainly evaluate such reliability of VLMs through input corruptions, such as noise, blur and weather effects, which make visual evidence harder to perceive. This leaves a critical reliability failure mode underexplored: a model may perceive the evidence correctly, yet reason from plausible but irrelevant and distracting evidence and propagate this mistake to its final answer. To address this gap, we introduce \textbf{Distract-Bench}, a benchmark for evaluating VLM robustness to \textbf{semantic visual distractions}, defined as meaningful but task-irrelevant visual cues added to inputs while preserving the ground-truth answer. We comprehensively evaluate eight leading open-source and two closed-source VLMs across conventional vision corruptions and Distract-Bench. Our results show that Distract-Bench exposes a robustness failure distinct from vision corruptions: reasoning VLMs largely track their non-reasoning base models under perceptual degradation, but show consistently lower robustness to semantic distractions. Further analysis shows that these distractions often enter the reasoning process of VLMs, are treated as evidence, and lead to incorrect answers. Together, these findings reframe robustness evaluation for reasoning VLMs, shifting the focus from degraded perception to distractions for reliable real-world visual reasoning. Our data and code are available at https://github.com/Yizheng-Sun/Distract-Bench.
Abstract（参考訳）: Reasoning Vision-Language Models (VLM) は、複雑なマルチモーダルタスクにおいて強力なパフォーマンスを達成するが、信頼性の高い実世界のアプリケーションでは、クリーンでキュレートされたベンチマークよりも汚い視覚入力を扱う必要がある。既存の研究は、ノイズ、ぼかし、気象効果などの入力汚職によるVLMの信頼性を主に評価しており、視覚的証拠を知覚しにくくしている。モデルは証拠を正しく認識するが、妥当だが無関係であり、証拠を邪魔し、この誤りを最終回答に広める。このギャップに対処するため,VLM の頑健性を評価するベンチマークである \textbf{Distract-Bench} を導入する。従来の視覚障害とDistract-Benchに対して,8つの主要なオープンソースと2つのクローズドソースのVLMを包括的に評価した。 VLMの推論は, 知覚的劣化下での非共振ベースモデルの大部分を追跡できるが, 意味的乱れに対するロバスト性は一貫して低下する。さらなる分析は、これらの散逸がしばしばVLMの推論過程に入り、証拠として扱われ、誤った答えにつながることを示している。これらの知見は、VLMの推論のためのロバストネス評価を再構築し、劣化した知覚から、信頼性のある現実世界の視覚的推論への注意を向けた。私たちのデータとコードはhttps://github.com/Yizheng-Sun/Distract-Bench.comで公開されています。

関連論文リスト

Diagnosing Visual Ignorance in Vision-Language Models [29.2851901986069]
VLM(Vision-Language Models)は、しばしば言語先行に頼り、視覚的証拠に弱く根ざした自信ある答えを生み出す。本研究では,機械的視点と行動的視点の両方から言語優先性について検討する。言語優先の信頼性は、モデル内部とベンチマークの妥当性の両方に影響を及ぼす体系的なルーティング障害であることがわかった。
論文参考訳（メタデータ） (2026-06-05T04:16:01Z)
DistractMIA: Black-Box Membership Inference on Vision-Language Models via Semantic Distraction [9.614855021411351]
視覚言語モデル(VLM)は、プライベート、著作権、その他の機密データを含む大規模な画像テキストコーパスで訓練される。本研究では,意味的注意散らしに基づく出力専用ブラックボックスフレームワークDistractMIAを提案する。 DistractMIAは元のイメージを保存し、既知のセマンティックイントラクタを挿入し、生成したレスポンスがどのように変化するかを測定する。
論文参考訳（メタデータ） (2026-05-12T12:04:11Z)
Counting to Four is still a Chore for VLMs [3.017198998175514]
視覚言語モデル(VLM)は、複雑なマルチモーダル推論タスクにおいて印象的な性能を達成した。それらは依然として、オブジェクトカウントのような単純な接地スキルで失敗します。本稿では, 挙動解析と力学解析の両方を通して, VLM計数行動の実証的研究を行った。
論文参考訳（メタデータ） (2026-04-11T05:23:19Z)
Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。 VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文参考訳（メタデータ） (2026-03-27T12:22:13Z)
Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
Semantic Misalignment in Vision-Language Models under Perceptual Degradation [2.9140696506330723]
視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
論文参考訳（メタデータ） (2026-01-13T09:13:05Z)
Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文参考訳（メタデータ） (2025-11-21T05:13:30Z)
MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs [22.99984702966184]
MVI-Benchは、視覚入力がLVLM(Large Vision-Language Models)の堅牢性をいかに損なうかを評価するための最初の総合的なベンチマークである。 MVI-Benchは、視覚概念、視覚属性、視覚関係という3つの階層的な視覚的インプットに焦点を当てている。 MVI-Sensitivityは、LVLMのロバスト性を粒度レベルで特徴づける新しい計量である。
論文参考訳（メタデータ） (2025-11-18T05:48:08Z)
Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs [72.8370367403852]
VLM(Vision-Language Models)は、視覚的質問応答などのマルチモーダルなタスクにおいて強力な結果を得るが、正しい視覚的証拠が存在する場合でも失敗する。浅層は主にテキストに焦点が当てられているのに対し、深層はわずかながら確実に局所化されたエビデンス領域に寄与していることを示す。我々は,選択的注意に基づくマスキングによる深層エビデンス領域の強調を行う推論時間介入を導入する。
論文参考訳（メタデータ） (2025-10-20T17:31:09Z)
Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文参考訳（メタデータ） (2025-09-28T10:19:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。