論文の概要: Latent Visual States for Efficient Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2606.24233v1
- Date: Tue, 23 Jun 2026 07:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.820493
- Title: Latent Visual States for Efficient Multimodal Reasoning
- Title(参考訳): 効率的なマルチモーダル推論のための潜在視覚状態
- Authors: Xiuwei Chen, Wentao Hu, Yongxin Wang, Zisheng Chen, Likui Zhang, Kun Xiang, Jianhua Han, Hui-Ling Zhen, Jingyuan Zou, Hang Xu, Xiaodan Liang,
- Abstract要約: EVA(LatEnt Visual StAtes)は、連続的な潜伏した視覚表現を生成する新しいフレームワークである。
これらの内部表現は、Latnt_slotトークンの適応シーケンスとして表される。
EVAは推論効率を高めつつ、大幅な性能向上を達成する。
- 参考スコア(独自算出の注目度): 58.350643620457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of visual evidence has significantly enhanced the capabilities of large multimodal models. However, this integration predominantly relies on generating discrete outputs (etc., code or box coordinates) to invoke external tools, a process that introduces rigid dependencies and substantial latency. To overcome these limitations, we propose {EVA} (LatEnt Visual StAtes), a novel framework that natively generates continuous latent visual representations. These internal representations manifest as an adaptive sequence of Latent\_slot tokens, serving as intermediate visual thoughts during the reasoning process. These Latent\_slot tokens are then trained end-to-end with the discrete text tokens. This co-optimization, notably, causes extreme policy deviation in the 'transition window' following the Latent\_slot tokens. We develop D-GSPO (Decouple-GSPO) to target this root cause by decoupling the optimization of latent and discrete components. To support SFT, we construct EVA-230K, a high-quality text-image interleaved CoT dataset encompassing a diverse range of real-world scenes, documents, charts and OCR tasks. Extensive experiments across multiple benchmarks confirm that EVA achieves significant performance gains while enhancing inference efficiency.
- Abstract(参考訳): 視覚的エビデンスの統合は、大規模なマルチモーダルモデルの能力を著しく向上させた。
しかし、この統合は主に外部ツールを呼び出すために独立したアウトプット(コードやボックスの座標など)を生成することに依存している。
このような制限を克服するため,持続的な視覚表現をネイティブに生成する新しいフレームワークである {EVA} (LatEnt Visual StAtes) を提案する。
これらの内部表現はLatent\_slotトークンの適応シーケンスとして現れ、推論過程の中間的な視覚的思考として機能する。
これらのLatent\_slotトークンは、個別のテキストトークンでエンドツーエンドにトレーニングされる。
この共同最適化は、特に、Latent\_slotトークンに続く 'transition window' における極端なポリシー逸脱を引き起こす。
そこで我々は,D-GSPO (Decouple-GSPO) を開発した。
SFTをサポートするために,現実世界のさまざまなシーン,文書,チャート,OCRタスクを含む高品質なテキスト画像インターリーブCoTデータセットであるEVA-230Kを構築した。
複数のベンチマークにわたる大規模な実験により、EVAは推論効率を向上しながら、大幅なパフォーマンス向上を達成することが確認された。
関連論文リスト
- Beyond Visual Cues: Semantic-Driven Token Filtering and Expert Routing for Anytime Person ReID [10.58405139566836]
Any-Time Person Re-identification (AT-ReID) は、任意の条件下で対象者の堅牢な検索を必要とする。
既存の手法は、環境や時間的要因によって変化しがちな純粋な視覚的特徴に強く依存している。
本稿では,LVLM(Large Vision-Language Models)を利用した識別整合性テキスト生成手法を提案する。
論文 参考訳(メタデータ) (2026-04-16T14:49:30Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。