論文の概要: See First, Answer Later: Visual Evidence Pre-Alignment via Sufficiency-Driven RL
- arxiv url: http://arxiv.org/abs/2606.17678v1
- Date: Tue, 16 Jun 2026 08:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.358208
- Title: See First, Answer Later: Visual Evidence Pre-Alignment via Sufficiency-Driven RL
- Title(参考訳): 視覚的エビデンス前アライメント : 十分駆動型RL
- Authors: Yilian Liu, Sicong Leng, Guoshun Nan, Junyi Zhu, Jiayu Huang, Minghao Sun, Xuancheng Zhu, Yisong Chen, Zexian Wei, Xiaofeng Tao,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、強力なテキスト推論を視覚入力と統合するが、その応答は基礎となる画像と矛盾する可能性がある。
質問条件付き視覚的エビデンス記述を最適化するために,前訓練と後訓練の中間段階である視覚的エビデンス事前調整(VEPA)を導入する。
- 参考スコア(独自算出の注目度): 19.682815357013453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) integrate strong text reasoning with visual inputs, yet their responses can be inconsistent with the underlying images, indicating ineffective utilization of visual evidence during inference. The prevailing training paradigm relies on large-scale caption-based pretraining for general alignment, followed by supervised fine-tuning and reinforcement learning to enable instruction following and complex reasoning. However, such pretraining provides only weak visual grounding: short, coarse captions bias models toward salient objects while neglecting fine-grained visual evidence. In this paper, we introduce Visual Evidence Pre-Alignment (VEPA), an intermediate stage between pretraining and post-training that explores a novel sufficiency-driven objective with Group Relative Policy Optimization (GRPO) to optimize question-conditioned visual evidence descriptions. Extensive experiments across diverse benchmarks show that our VEPA consistently enhances performance on visually demanding evaluations and complements standard supervised post-training. Further analyses show that the income stems from strengthened, transferable visual grounding, rather than from additional task-specific training.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、強力なテキスト推論を視覚入力と統合するが、その応答は基礎となる画像と矛盾し、推論中に視覚的証拠を効果的に利用できないことを示す。
一般的な訓練パラダイムは、一般的なアライメントのための大規模なキャプションベースの事前訓練に頼っており、続いて教師付き微調整と強化学習によって、指示の追従と複雑な推論を可能にしている。
しかし、そのような事前訓練は弱い視覚的根拠を与えるだけであり、簡潔で粗いキャプションは、きめ細かい視覚的証拠を無視しながら、有能な物体に対する偏見モデルである。
本稿では,事前学習と後学習の中間段階である視覚的エビデンス・プレアライメント(VEPA)を紹介し,グループ相対政策最適化(GRPO)を用いて,質問条件付き視覚的エビデンス記述の最適化を行う。
多様なベンチマークによる大規模な実験により、VEPAは視覚的に要求される評価のパフォーマンスを継続的に向上し、標準的な教師付きポストトレーニングを補完することが示された。
さらに分析したところ、収入はタスク固有のトレーニングではなく、強化された、移動可能な視覚的グラウンドリングに由来することがわかった。
関連論文リスト
- From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models [66.95781712577315]
視覚言語モデル(VLM)における知覚と推論の相互作用について、3つの異なる訓練段階に分解して検討する。
提案手法を用いてトレーニングしたモデルでは,20.8%の精度で推論精度が1.5%向上した。
論文 参考訳(メタデータ) (2026-05-19T17:58:40Z) - Visually-Guided Policy Optimization for Multimodal Reasoning [60.035908460318126]
本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。
VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。
VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
論文 参考訳(メタデータ) (2026-04-10T14:22:38Z) - Selective Training for Large Vision Language Models via Visual Information Gain [7.834991119179473]
本稿では,視覚情報ゲイン(VIG)について紹介する。
VIGは視覚入力による予測の不確実性の低減を測定する。
本稿では,高VIGサンプルとトークンを優先するVIG誘導型選択学習手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T09:12:21Z) - MMRPT: MultiModal Reinforcement Pre-Training via Masked Vision-Dependent Reasoning [20.14427952871989]
MLLMにおける視覚的推論を強化するマルチモーダル強化事前学習フレームワークであるMMRPTを紹介する。
我々は,大規模視覚言語モデルの事前学習に強化学習を直接取り入れた最初の人物である。
実験では、様々なベンチマークで一貫したゼロショットゲインが示され、教師付き微調整下ではロバスト性が大幅に改善された。
論文 参考訳(メタデータ) (2025-12-08T06:26:13Z) - Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training [37.93241751782069]
大規模言語モデル(LLM)は、テキストだけで訓練されているにもかかわらず、リッチな視覚的先行性を開発する。
これらの事前設定により、視覚タスクに対して比較的少量のマルチモーダルデータで潜在視覚機能をアンロックすることができる。
視覚的先行は、独自のスケーリング傾向と起源を持つ、分離可能な知覚と推論の先行から成り立っていることを示す。
論文 参考訳(メタデータ) (2025-09-30T17:57:44Z) - Preserving Clusters in Prompt Learning for Unsupervised Domain Adaptation [29.809079908218607]
この研究は、ベース擬似ラベルを強化し、ターゲット・プロンプト学習を促進する新しいソリューションを導入している。
まず、ソースとターゲットの視覚的埋め込みの関係に基づき、参照予測を活用することを提案する。
その後、事前学習したマルチモーダルモデルにおいて、視覚とテキストの埋め込みの間に強いクラスタリングの挙動が観察されていることを示した。
論文 参考訳(メタデータ) (2025-06-13T06:33:27Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。