Fugu-MT 論文翻訳(概要): Improving Reasoning in Vision-Language Models via Perception Verified Self-Training

論文の概要: Improving Reasoning in Vision-Language Models via Perception Verified Self-Training

arxiv url: http://arxiv.org/abs/2606.22158v1
Date: Sat, 20 Jun 2026 17:33:07 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 15:07:39.309453
Title: Improving Reasoning in Vision-Language Models via Perception Verified Self-Training
Title（参考訳）: 知覚検証自己学習による視覚言語モデルの推論改善
Authors: Sourabh Sharma, Sonam Gupta, Sadbhawna Thakur,
Abstract要約: 本稿では,視覚的根拠に基づく推論を強制する自己学習フレームワークを提案する。まず,認識を推論から切り離すCoTテンプレートを用いて,視覚的理解の独立した検証を可能にする。回答の正確さとともにキャプション検証を用いて、データを3つのサブセットに分割する: 簡単(正しいキャプションと結論)、中(正しいキャプションだが、間違った結論)、ハード(間違ったキャプション)。
参考スコア（独自算出の注目度）: 1.4571238252451864
License:
Abstract: Achieving human-like reasoning in Vision-Language Models (VLMs) remains a long-standing challenge. Recent approaches leverage Chain-of-Thought (CoT) rationales generated by human annotators or proprietary models to improve reasoning, which is costly and difficult to scale. Self-training offers a promising alternative by using models own outputs as supervision. However, existing methods often suffer from visual hallucinations -- where rationales describe non-existent visual content, and language shortcuts -- where predictions rely on textual priors rather than true visual grounding, as rationales are typically filtered only by answer correctness without verifying visual perception. To address this limitation, we propose a perception-verified self-training framework that enforces visually grounded reasoning. First, our method employs a CoT template (caption-reasoning-conclusion) that disentangles perception from reasoning, enabling independent verification of visual understanding. To compensate for the absence of ground-truth captions, we propose PerceptEval, an unsupervised method that evaluates caption quality based on its alignment with visual and textual elements present in the image. Using caption verification together with answer correctness, we partition the data into three subsets: easy (correct caption and conclusion), medium (correct caption but incorrect conclusion), and hard (incorrect caption). Building on this partitioning, we design a two-stage curriculum learning strategy. In Stage 1, the model is trained on easy examples and subsequently in Stage 2, medium samples are incorporated through a caption-guided reasoning enhancement procedure that regenerates reasoning conditioned on verified captions. Only regenerated samples with the correct conclusions are retained.
Abstract（参考訳）: VLM(Vision-Language Models)における人間のような推論を実現することは、長年にわたる課題である。近年のアプローチでは、人間のアノテータやプロプライエタリなモデルによって生成されるChain-of-Thought(CoT)の合理性を利用して推論を改善している。自己学習は、モデル自身のアウトプットを監督として使用することで、有望な代替手段を提供する。しかし、既存の手法は視覚幻覚に悩まされがちで、有理が存在しない視覚内容や言語ショートカットを記述し、予測は真の視覚的根拠ではなくテキストの先行に頼っている。この制限に対処するために,視覚的根拠に基づく推論を強制する知覚検証型自己学習フレームワークを提案する。まず,認識を推論から切り離し,視覚的理解の独立した検証を可能にするCoTテンプレート(Caption-reasoning-conclusion)を用いる。画像中の視覚的およびテキスト的要素との整合性に基づいてキャプションの品質を評価する教師なしの手法であるPerceptEvalを提案する。回答の正確さとともにキャプション検証を用いて, データを3つのサブセットに分割する: 簡単(正しいキャプションと結論), 媒体(正しいキャプションは正しいが, 結論は正しくない)、ハード(間違ったキャプション)。この分割に基づいて、2段階のカリキュラム学習戦略を設計する。モデル1では、簡単な例に基づいてトレーニングを行い、その後、第2ステージでは、中型サンプルをキャプション誘導推論強化手順により組み込んで、検証されたキャプション上での推論条件を再現する。正しい結論を持つ再生サンプルのみが保持される。

関連論文リスト

Disentangling Visual and Factual Correctness in LVLMs' Visualization Literacy [27.323597665236644]
LVLM(Large Vision-Language Models)は、強力な可視化解釈を示す。それらの反応が、視覚的証拠に対する真の推論を反映しているか、訓練中に学んだ事実的先行を反映しているのかは不明である。本稿では,視覚的正当性を事実的正当性から分離する枠組みを提案する。
論文参考訳（メタデータ） (2026-06-02T04:36:32Z)
Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning [82.86343313807158]
我々は、視覚的証拠が推論プロセスにどのように、いつ導入されるかが中心的な課題であると主張している。この知見により,言語モデルが推論プロセスを制御するマルチモーダル推論フレームワークCSMRを提案する。
論文参考訳（メタデータ） (2026-05-27T08:43:13Z)
Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning [14.700305370711973]
凍結したビジョンランゲージモデルにおける視覚的グラウンドの強化を目的とした,トレーニングフリーでデータ中心のフレームワークを提案する。我々のフレームワークは、DataCV 2026 Challenge (Task I: Classic Illusion Understanding)で評価され、総合2位にランクインした。我々の成功は、次世代のイリュージョンに耐性のある視覚言語システムを開発するための堅牢なパラダイムとして、構造化定性的接地の可能性を示している。
論文参考訳（メタデータ） (2026-04-29T03:12:29Z)
Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning [59.262311672150055]
プロセス駆動画像生成は多段階のパラダイムで、合成をインターリーブな推論軌道に分解する。プロセス駆動生成の核となる課題は、中間状態のあいまいさに起因する。 2つの相補的な制約を維持する、密集したステップワイドな監視を通じてこの問題に対処する。
論文参考訳（メタデータ） (2026-04-06T15:11:57Z)
Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions [2.9521041993295607]
視覚言語モデル(VLM)は、古典的な光学錯視に直面した場合、体系的なバイアスを示す。モデルトレーニングなしでこの障害モードに対処するツール誘導推論フレームワークを提案する。我々は3つの経験的観察を報告し、さらなる調査を保証していると信じている。
論文参考訳（メタデータ） (2026-03-31T08:35:10Z)
Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。 VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文参考訳（メタデータ） (2026-02-27T06:23:56Z)
Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文参考訳（メタデータ） (2026-01-07T16:39:34Z)
Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文参考訳（メタデータ） (2025-08-27T08:01:03Z)
Grounded and Controllable Image Completion by Incorporating Lexical Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。 LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文参考訳（メタデータ） (2020-02-29T16:54:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。