論文の概要: Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
- arxiv url: http://arxiv.org/abs/2606.19120v2
- Date: Fri, 19 Jun 2026 10:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.937761
- Title: Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
- Title(参考訳): 推論の前に見る:短時間のマルチモーダル・オン・ポリシィ自己蒸留における知覚と推論の疎結合
- Authors: Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han,
- Abstract要約: On-policy Self-distillation (OPSD)は、自身のロールアウトでモデルをトレーニングし、フリーズコピーを使用して、参照ターゲットに条件付けされた密集したトークンレベルターゲットを提供する。
MLLMポストトレーニングのための視覚的基盤を持つフレームワークであるViGOSを提案する。
- 参考スコア(独自算出の注目度): 13.207215458280698
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: On-policy self-distillation (OPSD) trains a model on its own rollouts and uses a frozen copy to provide dense token-level targets conditioned on a reference target. This works well for LLM reasoning, but a direct extension to multimodal large language models (MLLMs) can create a shortcut: the privileged target may guide tokens mainly based on the text reference target rather than the image. We propose ViGOS, a visually grounded OPSD framework for MLLM post-training. The student first writes a visual description and then reasons toward the final answer. For valid rollouts, an image-only perception teacher supervises the description, while a privileged reasoning teacher supervises the reasoning and final answer on the same student prefix. A reference teacher is used only for invalid rollouts to recover the output format. Across general vision-language, expert reasoning, visual math, spatial grounding, and visual-language-prior benchmarks, ViGOS keeps the main benefits of OPSD and improves image-grounded behavior in shortcut-prone settings.
- Abstract(参考訳): On-policy Self-distillation (OPSD)は、自身のロールアウトでモデルをトレーニングし、フリーズコピーを使用して、参照ターゲットに条件付けされた密集したトークンレベルターゲットを提供する。
LLM推論ではうまく機能するが、マルチモーダルな大規模言語モデル(MLLM)への直接拡張はショートカットを作成することができる。
MLLM後トレーニングのための視覚的基盤となるOPSDフレームワークであるViGOSを提案する。
学生はまず視覚的な記述を書き、最後に答える理由を書きます。
有効なロールアウトについては、イメージのみの知覚教師が説明を監督し、特権的推論教師が同じ学生プレフィックス上の推論と最終回答を監督する。
参照教師は、出力フォーマットを復元するために、無効なロールアウトのためにのみ使用される。
一般的な視覚言語、専門家の推論、視覚数学、空間的グラウンドニング、視覚言語優先ベンチマークなど、ViGOSはOPSDの主な利点を保ち、ショートカットプロン設定における画像のグラウンドドビヘイビアを改善する。
関連論文リスト
- See First, Answer Later: Visual Evidence Pre-Alignment via Sufficiency-Driven RL [19.682815357013453]
マルチモーダル大言語モデル(MLLM)は、強力なテキスト推論を視覚入力と統合するが、その応答は基礎となる画像と矛盾する可能性がある。
質問条件付き視覚的エビデンス記述を最適化するために,前訓練と後訓練の中間段階である視覚的エビデンス事前調整(VEPA)を導入する。
論文 参考訳(メタデータ) (2026-06-16T08:45:24Z) - From What to Why: Thought-Space Recommendation with Small Language Models [2.134948383299948]
大規模言語モデル(LLM)は推論の強化を通じて高度なレコメンデーション機能を備えているが、実際のデプロイメントには大きな課題がある。
SLM(Small Language Models)は効率的な代替手段を提供するが、推奨する推論機能は未検討のままである。
PULSE(Preference Understanding by Latent Semantic Embeddings)は,SLM生成論理をディレクター学習信号として扱うフレームワークである。
論文 参考訳(メタデータ) (2025-10-08T11:22:26Z) - Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-06T15:46:23Z) - Vocabulary-free few-shot learning for Vision-Language Models [23.972884634610413]
VLM(Vision-Language Models)のための語彙なし数ショット学習を導入する。
類似度マッピング(SiM)は、一連の一般的なプロンプトで類似度スコアのみに基づいてターゲットインスタンスを分類する。
我々は,この手法が,語彙のない数発学習における今後の研究の基盤となると信じている。
論文 参考訳(メタデータ) (2025-06-04T14:32:32Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。