論文の概要: Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?
- arxiv url: http://arxiv.org/abs/2606.08063v1
- Date: Sat, 06 Jun 2026 08:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.707246
- Title: Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?
- Title(参考訳): Robust-U1: MLLMsはロバスト理解のために中断したビジュアルコンテンツを自己回復できるか?
- Authors: Jiaqi Tang, Jianmin Chen, Youyang Zhai, Wei Wei, Runtao Liu, Mengjie Zhao, Xiangyu Wu, Qingfa Xiao, Qifeng Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)は視覚的理解において顕著な成功を収めている。
しかし、彼らのパフォーマンスは現実世界の視覚的腐敗の下で著しく低下する。
本稿では,MLLMに視覚的自己回復機能を持たせる新しいフレームワークであるRobust-U1を提案する。
- 参考スコア(独自算出の注目度): 44.97826049837797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解において顕著な成功を収めているが、実際の視覚的腐敗下では、その性能は著しく低下している。
ブラックボックス機能アライメントは解釈性に欠けており、ホワイトボックステキストベースの推論は失われたピクセルレベルの詳細を復元できない。
MLLMは、腐敗した視覚コンテンツを自分で回収できるのか?
これを解決するために,ロバストU1を提案する。これはMLLMに視覚的自己回復能力を持たせる新しいフレームワークで,頑健な理解を可能にする。
提案手法は,初期再構成のための教師付き微調整,2重報酬付き強化学習(画素レベルのSSIMとセマンティックレベルのCLIP類似性)と,劣化した入力と回復した画像の両方を共同で考慮したマルチモーダル推論の3段階からなる。
大規模な実験により、Robust-U1は実世界の汚職ベンチマークで最先端の堅牢性を達成し、一般的なVQAベンチマークでは敵の汚職の下で優れた性能を維持することが示されている。
分析により、高品質な視覚回復は推論性能を直接向上させ、堅牢な視覚的理解のための重要なメカニズムとして自己回復を確立することが確認される。
ソースコードはhttps://github.com/jqtangust/Robust-U1.comで入手できる。
関連論文リスト
- Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning [14.700305370711973]
凍結したビジョンランゲージモデルにおける視覚的グラウンドの強化を目的とした,トレーニングフリーでデータ中心のフレームワークを提案する。
我々のフレームワークは、DataCV 2026 Challenge (Task I: Classic Illusion Understanding)で評価され、総合2位にランクインした。
我々の成功は、次世代のイリュージョンに耐性のある視覚言語システムを開発するための堅牢なパラダイムとして、構造化定性的接地の可能性を示している。
論文 参考訳(メタデータ) (2026-04-29T03:12:29Z) - CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models [23.357627415320025]
理解と生成を組み合わせたマルチモーダルモデルは、劣化した入力に自身の生成能力を利用することができない。
本稿では,2つの機能を3段階のプログレッシブステップで接続するフレームワークであるCLEARを紹介する。
実験により、CLEARはクリーンイメージ性能を維持しながら、劣化した入力に対するロバスト性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-06T15:54:00Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - Vision-Language Model Guided Image Restoration [16.151927651999948]
視覚言語モデル(VLM)は、視覚的特徴とテキスト的特徴を普遍的な画像復元に整合させることに優れる。
本稿では,視覚知覚と意味理解を改良し,赤外線性能を向上させる視覚言語モデルガイド画像復元(VLMIR)フレームワークを提案する。
提案手法は,VLMに基づく特徴抽出と拡散に基づく画像復元の2段階からなる。
論文 参考訳(メタデータ) (2025-12-19T07:16:07Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文 参考訳(メタデータ) (2025-06-10T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。