論文の概要: VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination
- arxiv url: http://arxiv.org/abs/2606.17999v2
- Date: Mon, 22 Jun 2026 14:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.606337
- Title: VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic Termination
- Title(参考訳): VoidPadding:[VOID]ハンドルパディングをマスク付き拡散言語モデルに適用して,[EOS]がセマンティック終了に集中できるように
- Authors: Chunyu Liu, Zhengyang Fan, Kaisen Yang, Alex Lamb,
- Abstract要約: 既存のMDLMは、命令チューニング中にパディングに繰り返しtexttt[EOS]トークンを使用するという自己回帰的な慣習を継承することが多い。
この二重の役割は、大きなブロックデコードの下でのtexttt[EOS]オーバーフローの根本原因であることを示す。
VoidPaddingは、パディングのためのtexttt[VOID]を導入し、終了のための texttt[EOS]を予約する。
- 参考スコア(独自算出の注目度): 7.108726649931998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MDLMs generate text by denoising a preallocated masked response canvas, making response-length modeling central to instruction tuning. Existing MDLMs often inherit the autoregressive convention of using repeated \texttt{[EOS]} tokens for padding during instruction tuning, giving \texttt{[EOS]} a dual role as both a semantic terminator and a padding token. We show that this dual role is a root cause of \texttt{[EOS]} overflow under large-block decoding. To decouple these roles, we propose VoidPadding, which introduces \texttt{[VOID]} for padding and reserves \texttt{[EOS]} for termination. During inference, the learned \texttt{[EOS]} signal enables early stopping, while the learned \texttt{[VOID]} signal guides adaptive response canvas expansion. On Dream-7B-Instruct, VoidPadding improves the block-size-averaged four-task mean across mathematical reasoning and code generation benchmarks by \(+17.84\) points over the original model and \(+6.95\) points over RainbowPadding, while reducing decoding NFE by 55.7\% on average. Code is available at https://github.com/Haru-LCY/VoidPadding.
- Abstract(参考訳): MDLMは、プリアロケーションされたマスクされた応答キャンバスをデノベートしてテキストを生成し、命令チューニングの中心となる応答長のモデリングを行う。
既存のMDLMは、命令チューニング中にパディングに繰り返し \texttt{[EOS]} トークンを使用するという自己回帰的な慣習を継承し、意味ターミネータとパディングトークンの両方として \texttt{[EOS]} に二重の役割を与える。
この二重の役割は、大きなブロックデコーディングの下での \texttt{[EOS]} オーバーフローの根本原因であることを示す。
本稿では,これらの役割を分離するために,<texttt{[VOID]}をパディングに導入し,終了のために<texttt{[EOS]}をリザーブするVoidPaddingを提案する。
推論中、学習した \texttt{[EOS]} 信号は早期停止を可能にし、学習した \texttt{[VOID]} 信号は適応的な応答キャンバス展開を導く。
Dream-7B-Instructでは、VoidPaddingはブロックサイズ平均の4タスク平均を、元のモデル上での \(+17.84\) 点とレインボーパディング上での \(+6.95\) 点で改善し、デコード NFE を平均で 55.7\% 削減した。
コードはhttps://github.com/Haru-LCY/VoidPadding.comで入手できる。
関連論文リスト
- Prefix-Adaptive Block Diffusion for Efficient Document Recognition [52.15352911463151]
ブロック拡散モデル(BDM)は並列生成、フレキシブルな出力、KVキャッシュをサポートし、効率的な文書解析を約束する。
本稿では,前置詞から接尾辞への因果表記に代えて,ブロック内双方向化を代替するPrefix-Block Diffusion Model (PA-BDM)を提案する。
実験の結果、3B PA-BDMはいくつかのベンチマークで高い認識スコアを達成し、2.5B MinerU-Diffusionに対して推論スループットを71.6%向上した。
論文 参考訳(メタデータ) (2026-05-16T07:50:13Z) - When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Rainbow Padding: Mitigating Early Termination in Instruction-Tuned Diffusion LLMs [10.214443153276962]
拡散型大規模言語モデルは,textteos> overflow と呼ばれる重大な脆弱性を示す。
Rainbow Padding(レインボー・パディング)は、反復するtextteos>プレースホルダーを別のパディングトークンの繰り返しサイクルで置き換えるシンプルな治療法である。
実験により、レインボーパディングは、早期終了を防ぐのに十分な7つのパディングトークンで、長さの堅牢性と出力品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-04T05:24:27Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。
RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文 参考訳(メタデータ) (2025-06-07T14:50:26Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - PIXAR: Auto-Regressive Language Modeling in Pixel Space [51.530056034156374]
テキスト生成を行うピクセルベース自動回帰LDMであるPIXARを紹介する。
デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。
そこで本研究では,LAMBADAでは8.1,bAbIでは8.5,PIXARでは8.1の可読性と精度を向上させる逆事前学習ステージを提案する。
論文 参考訳(メタデータ) (2024-01-06T22:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。