論文の概要: P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling
- arxiv url: http://arxiv.org/abs/2606.24447v1
- Date: Tue, 23 Jun 2026 11:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.917378
- Title: P-MTP: Efficient Document Parsing via Multi-Token Prediction with Progressive Depth Scaling
- Title(参考訳): P-MTP: プログレッシブ深さスケーリングによるマルチトークン予測による効率的な文書解析
- Authors: Le Xiang, Chenxi Zhai, Shu Wei, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He,
- Abstract要約: VLM(Vision-Language Models)は、画像から構造化テキストへのエンドツーエンドマッピングを可能にすることで、文書解析に革命をもたらした。
MTP(Multi-Token Prediction)は推論を高速化するための有望なアプローチとして登場したが、そのポテンシャルはより深いルックアヘッドまでスケーリングする際の最適化不安定性によって制約されている。
我々は,textbf Multi-Token Prediction を軽量な MTP モジュールで活用し,ルックアヘッド深度を拡大する textbfP-MTP を提案する。
- 参考スコア(独自算出の注目度): 9.276742450240961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have revolutionized document parsing by enabling end-to-end mapping from images to structured text, imposing a significant latency bottleneck, particularly for token-dense documents. While Multi-Token Prediction (MTP) has emerged as a promising approach for accelerating inference, its potential is constrained by optimization instability when scaling to deeper look-ahead depth. In this paper, we propose \textbf{P-MTP}, a framework that leverages \textbf{Progressive Multi-Token Prediction} with a lightweight MTP module to scale the look-ahead depth for high-throughput document parsing. Specifically, we introduce Progressive Curriculum Loss that adaptively re-weights different look-ahead depths using cumulative path reliability and retrospective target consistency. By effectively suppressing gradient noise in long-range predictions, P-MTP, facilitates an automated easy-to-hard optimization transition, enabling the model to master increasingly distant look-ahead depths. Furthermore, we propose Confidence-Gated Dynamic Drafting to maximize the effective look-ahead depth and acceptance rate by adaptively calibrating speculative length during inference, thereby minimizing computational waste and further pushing the boundaries of inference speedup. Experimental results across multiple benchmarks and architectures demonstrate that P-MTP, achieves up to a $5\times$ speedup with negligible loss in accuracy, providing the first successful validation of extensive look-ahead MTP in the document parsing domain.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像から構造化テキストへのエンドツーエンドマッピングを可能にすることで、文書解析に革命をもたらした。
MTP(Multi-Token Prediction)は推論を高速化するための有望なアプローチとして登場したが、そのポテンシャルはより深いルックアヘッドまでスケーリングする際の最適化不安定性によって制約されている。
本稿では,高スループット文書解析のためのルックアヘッド深度を拡大するために,軽量MPPモジュールで \textbf{Progressive Multi-Token Prediction} を利用するフレームワークである \textbf{P-MTP} を提案する。
具体的には、累積経路の信頼性とふりかえり目標の整合性を利用して、異なるルックアヘッド深さを適応的に再重み付けするプログレッシブ・カリキュラム・ロスを導入する。
長距離予測における勾配雑音を効果的に抑制することにより、P-MTPは、自動化された簡単からハードな最適化遷移を容易にし、モデルがますます遠視深度をマスターできるようにする。
さらに、推論中の投機長を適応的に調整し、計算廃棄物の最小化と推論高速化の限界を推し進めることにより、効果的なルックアヘッド深度と受入率を最大化するための信頼性保証動的ドラフトを提案する。
複数のベンチマークやアーキテクチャでの実験結果から、P-MTPは精度を損なうことなく最大5\times$のスピードアップを実現し、文書解析領域における広範囲なMTPの検証を初めて成功した。
関連論文リスト
- How Transformers Learn to Plan via Multi-Token Prediction [33.974020982252206]
次世代予測(NTP)の代替としてMulti-token Prediction(MTP)が登場した。
MTP は合成グラフパスフィニングタスクとより現実的な推論ベンチマークの両方において NTP を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-04-13T18:04:09Z) - Self-Distillation for Multi-Token Prediction [27.12687724768597]
マルチトークン予測(MTP)は、複数の将来トークンを並列に予測することで、推論を加速することができる。
MTP-Dは, トレーニングコストを最小限に抑えつつ, 簡便かつ効果的な自己蒸留法である。
また、MPP-Dのループ拡張戦略を導入し、効果的かつ経済的なMPPヘッド拡張を可能にした。
論文 参考訳(メタデータ) (2026-03-25T04:00:29Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings [52.49524240846879]
本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
論文 参考訳(メタデータ) (2025-11-18T19:37:40Z) - MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction [49.92201266421949]
音声から単位への翻訳(S2UT)モデルにマルチトークン予測(MTP)損失を導入する。
全てのMPP損失変種がS2UT翻訳の品質を一貫して改善していることが示される。
論文 参考訳(メタデータ) (2025-10-11T04:06:20Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。