論文の概要: Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation
- arxiv url: http://arxiv.org/abs/2606.09131v1
- Date: Mon, 08 Jun 2026 07:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.799753
- Title: Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation
- Title(参考訳): マルチモーダル大規模言語モデルの視覚飽和下でのデュアルパスビジョントケルーティング
- Authors: Siyuan Liu, Jinyang Wu,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は、通常、非モーダルテキストモデリング用に設計された深い対称トランスフォーマーのバックボーンを継承する。
この設計では、画像とテキストトークンは情報密度、冗長性、必要な推論深度で大きく異なるという、重要なモダリティ非対称性を見落としている。
効率的なMLLMのためのモダリティ非対称なルーティングフレームワークであるDual-Path Vision Token Routing (DPVR)を提案する。
- 参考スコア(独自算出の注目度): 6.369257323378483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and apply the same computation uniformly to image and language tokens. This design overlooks a key modality asymmetry: image and text tokens differ substantially in information density, redundancy, and required reasoning depth. Through a layer-wise analysis of LLaVA-1.5, we observe that vision tokens tend to saturate in the middle layers. Specifically, text-to-image attention decreases from 0.68 at layer 0 to 0.07 by layer 4, and stabilizes near 0.04 after layer 18, whereas text tokens continue to benefit from deep semantic processing. These findings suggest a mismatch between architectural symmetry and depth-asynchronous modality evolution, resulting in redundant visual computation and possible drift in perceptual representations during deep task-specific adaptation. Motivated by this, we propose Dual-Path Vision Token Routing (DPVR), a modality-asymmetric routing framework for efficient MLLMs. Its core instantiation, DPVR-LF (Late-Layer Fusion), routes vision tokens at the saturation point into a one-layer trainable side branch, runs a thirteen-layer text-only forward that skips image positions in the deep stack, and re-fuses the visual and textual streams only at the final layer. With approximately 3% trainable parameters, DPVR-LF preserves competitive multimodal performance on standard benchmarks while reducing visual computation in the deep Transformer stack. The results challenge the conventional assumption that vision tokens must traverse all deep language-model layers, and indicate that a single late fusion layer can be sufficient for maintaining strong perceptual competence in LLaVA-style MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は、通常、非モーダルテキストモデリング用に設計された深い対称トランスフォーマーのバックボーンを継承し、画像および言語トークンに同じ計算を均一に適用する。
この設計では、画像とテキストトークンは情報密度、冗長性、必要な推論深度で大きく異なるという、重要なモダリティ非対称性を見落としている。
LLaVA-1.5の層構造解析により,中間層で視線トークンが飽和する傾向が観察された。
具体的には、第0層で0.68から第4層で0.07に減少し、第18層で0.04近く安定するのに対して、テキストトークンは深いセマンティック処理の恩恵を受け続けている。
これらの結果から,アーキテクチャ対称性と深度-非同期的モダリティ進化のミスマッチが示唆され,冗長な視覚計算と深部タスク特異的適応時の知覚表現のドリフトが生じる可能性が示唆された。
そこで我々は,効率的なMLLMのためのモダリティ非対称なルーティングフレームワークであるDual-Path Vision Token Routing (DPVR)を提案する。
その中核的なインスタンス化であるDPVR-LF(Late-Layer Fusion)は、飽和点の視覚トークンを1層のトレーニング可能なサイドブランチにルーティングし、13層のテキストのみのフォワードを実行し、深いスタックのイメージ位置をスキップし、最終的なレイヤでのみ視覚的およびテキストストリームを再融合する。
約3%のトレーニング可能なパラメータを持つDPVR-LFは、Deep Transformerスタックのビジュアル計算を削減しつつ、標準ベンチマーク上での競合するマルチモーダル性能を保っている。
この結果は、視覚トークンが全ての深層言語モデル層を横切る必要があるという従来の仮定に挑戦し、LLaVAスタイルのMLLMにおいて強力な知覚能力を維持するのに、単一の後期融合層が十分であることを示す。
関連論文リスト
- Unlocking Dense Metric Depth Estimation in VLMs [36.431792667223796]
VLM(Vision-Language Models)は、接地やキャプションなどの2Dタスクに優れるが、3D理解には制限がある。
本稿では,単一のVLMをネイティブな密度密度幾何学予測器に変換する,シンプルで効果的なフレームワークであるDepthVLMを提案する。
LLMバックボーンに軽量な深度ヘッドをアタッチすることで、DepthVLMは1つの前方パスで言語出力と並行してフル解像度の深度マップを生成する。
論文 参考訳(メタデータ) (2026-05-15T11:54:17Z) - Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。
VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。
モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文 参考訳(メタデータ) (2025-11-02T07:04:12Z) - $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。