論文の概要: MultiToP: Learning to Patch Visual Tokens to Mitigate Hallucinations in Video Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2606.11792v2
- Date: Thu, 11 Jun 2026 05:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.674739
- Title: MultiToP: Learning to Patch Visual Tokens to Mitigate Hallucinations in Video Large Multimodal Models
- Title(参考訳): MultiToP:ビデオ大規模マルチモーダルモデルにおける幻覚の軽減を目的とした視覚的トークンのパッチ学習
- Authors: Yuansheng Gao, Wenbin Xing, Jiahao Yuan, Kaiwen Zhou, Han Bao, Zonghui Wang, Wenzhi Chen,
- Abstract要約: MultiToPはマルチモーダルコンテキスト対応のビジュアルトークンパッチフレームワークである。
言語生成の前に信頼できない視覚トークンを精査することで幻覚を緩和する。
これは、Qwen3-VL-4B-インストラクトのF1スコアを、バニラモデルよりも50.60%改善する。
- 参考スコア(独自算出の注目度): 24.131762347887634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Multimodal Models have achieved remarkable progress in video understanding, yet they remain prone to hallucinations, where generated responses are not faithfully supported by the input video. In this paper, we propose MultiToP, a multimodal-context-aware visual token patching framework that mitigates hallucinations by refining unreliable visual tokens before language generation. MultiToP introduces a lightweight Visual Token Patcher to predict token-level replacement distributions and selectively substitute unreliable visual tokens with a dynamic global patch token. To train the patcher effectively, we further propose information-guided rank calibration, which uses answer-conditioned frame-level information cues derived from the backbone to guide token replacement. Combined with ground-truth answer supervision and sparsity regularization, MultiToP enables localized visual evidence refinement without modifying the original model. Extensive experiments demonstrate that MultiToP effectively reduces hallucinations on Vript-HAL with negligible inference overhead, improving the F1 scores of Qwen3-VL-4B-Instruct by 50.60% over the vanilla model. Meanwhile, MultiToP preserves general video understanding ability, yielding an 18.58% relative accuracy gain on ActivityNet-QA for Video-LLaVA-7B.
- Abstract(参考訳): Video Large Multimodal Modelsは、ビデオ理解において顕著な進歩を遂げているが、生成した応答が入力ビデオによって忠実にサポートされない幻覚の傾向にある。
本稿では,マルチモーダル・コンテクスト対応の視覚トークンパッチフレームワークであるMultiToPを提案する。
MultiToPは軽量なVisual Token Patcherを導入し、トークンレベルの置換分布を予測し、信頼性の低いビジュアルトークンを動的グローバルパッチトークンで選択的に置き換える。
さらに、バックボーンから派生した応答条件付きフレームレベルの情報キューを用いてトークン置換を誘導する情報誘導ランク校正を提案する。
MultiToPは, 基本モデルを変更することなく, 局所的な視覚的エビデンス改善を可能にする。
大規模な実験により、MultiToPはVript-HALの幻覚を無視可能な推論オーバーヘッドで効果的に減少させ、Qwen3-VL-4B-インストラクトのF1スコアをバニラモデルより50.60%向上させることが示された。
一方、MultiToPは一般的なビデオ理解能力を保ち、 Video-LLaVA-7BのActivityNet-QAでは18.58%の精度向上を実現している。
関連論文リスト
- How Many Visual Tokens Do Multimodal Language Models Need? Scaling Visual Token Pruning with F^3A [35.028071915491104]
視覚的トークンプルーニングのためのトレーニング不要ルータF3Aを提案する。
ライトウェイトなクェリコンディショニングキューを構築し、凍結したスパースセンサーヘッドを通してトークンと照合する。
厳密なエビデンスローカライゼーション、地域改良、カバー範囲保存競争、未発見領域の回復を通じて、固定された視覚トークン予算を割り当てている。
論文 参考訳(メタデータ) (2026-05-09T13:13:04Z) - PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues [28.522392005763873]
PatchCueは、視覚言語モデル(VLM)の視覚的推論能力を大幅に向上するパッチベースの視覚的キューパラダイムである。
イメージをパッチに分割し、パッチレベルでキューを表現することで、PatchCueは人間の知覚的習慣と整合し、最新のVLMのパッチトークン入力を活用する。
その結果,パッチレベルのキューはピクセルレベルのバウンディングボックスとポイントベースのキューの両方に優れており,より効果的で認知的に整合した視覚的推論パラダイムを提供することがわかった。
論文 参考訳(メタデータ) (2026-03-06T03:44:27Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - MTRE: Multi-Token Reliability Estimation for Hallucination Detection in VLMs [2.6076093883457454]
視覚言語モデル(VLM)は、今や多くのマルチモーダルタスクにおいて人間のパフォーマンスと競合するが、それでもオブジェクトを幻覚させるか、安全でないテキストを生成する。
初期ロジットの完全配列を解析することで,診断情報が大幅に向上することが実証された。
マルチトークンの信頼性評価(MTRE, Multi-Token Reliability Estimation)は, マルチトークンの対数比と自己アテンションを用いて, 最初の10トークンからログを集約する軽量なホワイトボックス手法である。
論文 参考訳(メタデータ) (2025-05-16T23:00:19Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced
Video-grounded Dialogue Generation [24.480587619037184]
ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。
マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。
幻覚軽減のためのモデル適応型マルチモーダル知識アンカー拡張フレームワークM2K-VDGを提案する。
論文 参考訳(メタデータ) (2024-02-19T06:32:39Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。