論文の概要: CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference
- arxiv url: http://arxiv.org/abs/2606.10935v1
- Date: Tue, 09 Jun 2026 14:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.55826
- Title: CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference
- Title(参考訳): CLP:Zero-Loss Adaptive Multi-Token Inferenceのためのコロケーション長予測
- Authors: Xuezhen Xie, Zhiqiang Zhou,
- Abstract要約: CLPは軽量なスパンレベルの決定層で、デコーディングの各ステップで安全に追加トークンが受け入れられる回数を予測する。
CLPは1.5Bでは1.20x--1.29x、7Bでは1.14x--1.20x、品質劣化はゼロである。
我々は、MPPヘッド予測精度を加速度の束縛制約として同定する。
- 参考スコア(独自算出の注目度): 3.8380090640598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model inference is bottlenecked by autoregressive decoding, where each token requires a full forward pass. Multi-token prediction (MTP) offers a promising acceleration path, but existing approaches suffer from a fundamental architectural flaw: the MTP head for the first token competes with the backbone's own language model (LM) head, leading to severe quality degradation when predictions are accepted. We identify this head-backbone competition as the root cause of repetitive and incoherent outputs in prior MTP-based acceleration methods. To address this, we propose Backbone-as-Architect, a design principle where the backbone LM head always generates the first token, and MTP heads are responsible only for subsequent tokens. Building on this principle, we introduce CLP (Collocation-Length Predictor), a lightweight span-level decision layer that predicts how many additional tokens can be safely accepted at each decoding step. CLP uses only a single linear layer (4.6K--7.7K parameters), replacing the over-engineered 1M-parameter gate networks used in prior work. Experiments on Qwen2.5 models (0.5B, 1.5B, 7B) show that CLP achieves 1.20x--1.29x speedup on 1.5B and 1.14x--1.20x on 7B, with zero quality degradation (repetition ratio < 0.02), while gate-based approaches fail to accelerate (1.07x) or produce severely degraded outputs (repetition ratio > 0.5%). We further demonstrate that shorter prediction horizons (k=2) recover 24% higher MTP head accuracy on large models, establishing a scaling-aware design principle. We identify MTP head prediction accuracy as the binding constraint on acceleration and establish a clear roadmap for future improvements.
- Abstract(参考訳): 大規模な言語モデル推論は、各トークンがフルフォワードパスを必要とする自動回帰デコーディングによってボトルネックとなる。
マルチトークン予測(MTP)は有望な加速パスを提供するが、既存のアプローチは基本的なアーキテクチャ上の欠陥に悩まされている。
我々は、このヘッドバックボーン競合を、従来のMPPベースの加速度法における繰り返しおよび非コヒーレントな出力の根本原因とみなす。
この問題を解決するために、バックボーンLMヘッドが常に最初のトークンを生成し、MPPヘッドがその後のトークンにのみ責任を持つ設計原理であるBackbone-as-Architectを提案する。
この原則に基づいてCLP(Collocation-Length Predictor)を導入します。これは軽量なスパンレベルの決定層で、デコーディングの各ステップで安全に追加トークンが受け入れられるかを予測します。
CLPは1つの線形層(4.6K--7.7Kパラメータ)しか使用せず、以前の作業で使われたオーバーエンジニアリングの1Mパラメーターゲートネットワークを置き換える。
Qwen2.5モデル(0.5B, 1.5B, 7B)の実験では、CLPは1.5Bで1.20x--1.29x、1.5Bで1.14x--1.20x、品質劣化ゼロ(繰り返し比 < 0.02)、ゲートベースのアプローチでは1.07xの加速に失敗し、出力を著しく低下させる(繰り返し比 > 0.5%)。
さらに,より短い予測地平線(k=2)は,大規模モデルにおいて24%高いMPP頭部精度を回復し,スケーリングを考慮した設計原理を確立することを実証した。
我々は、MPPヘッド予測精度をアクセラレーションのバインディング制約とみなし、将来の改善に向けた明確なロードマップを確立する。
関連論文リスト
- Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs [19.38885798529711]
PIPO (textbfPair-In, Pair-Out) を提案する。
PIPOは、ドラフトトークンが受け入れられるべきかどうかを決定する軽量な信頼性ヘッドをトレーニングする。
AIME 2025、GPQA-Diamond、LiveCodeBench v6、およびQwen3.5-4Bと9BのバックボーンによるLongBench v2の実験によると、PIPOは通常のデコードよりもパス@4を最大7.15ドルポイント改善している。
論文 参考訳(メタデータ) (2026-05-26T16:31:45Z) - Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing [3.861463840588074]
大規模言語モデル(LLM)は、次世代にのみ訓練されているにもかかわらず、潜在マルチトークン予測(MTP)能力を示す。
本研究では,その埋め込み空間から引き出されたオンザフライマスクトークンを用いてLCMを探索するトレーニングフリーMPP手法を提案する。
マスクトケロジットからトップK候補を抽出して投機的トークンツリーを構築し,高確率継続を維持するために軽量プルーニング戦略を適用した。
論文 参考訳(メタデータ) (2026-03-18T17:14:01Z) - CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML [0.0]
我々は、TinyMLのシングルパスラベルなし不確実性手法である textbfSNAP-UQ を導入する。
int8ヘッドは、前者の圧縮されたビューから次の層の統計を予測します。
この設計では、一時バッファ、補助出口、または繰り返しフォワードパスを必要とせず、MCUデプロイメントに数キロバイトの追加しか必要としない。
論文 参考訳(メタデータ) (2025-08-18T13:14:20Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。