論文の概要: Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.12273v1
- Date: Wed, 10 Jun 2026 16:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.551868
- Title: Beyond Fully Random Masking: Attention-Guided Denoising and Optimization for Diffusion Language Models
- Title(参考訳): 完全にランダムなマスキングを超えて: 拡散言語モデルに対する注意誘導型Denoisingと最適化
- Authors: Jia Deng, Junyi Li, Wayne Xin Zhao, Jinpeng Wang, Hongyu Lu, Ji-Rong Wen,
- Abstract要約: 拡散大言語モデル(dLLM)における注意の実証分析について述べる。
我々は,未成熟の文脈に強く参加するトークンがより世代安定性を示し,推論において重要な役割を担っていることを示す。
これらの知見に触発され,注意誘導型分極最適化フレームワーク AGDO を提案する。
- 参考スコア(独自算出の注目度): 129.8880969196575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion large language models (dLLMs) offer an efficient alternative to autoregressive models through parallel decoding, yet existing post-training methods largely rely on random masking strategies that overlook intrinsic token dependencies. In this work, we present an empirical analysis of attention in dLLMs and show that tokens attending more strongly to unmasked context exhibit greater generation stability and play a critical role in reasoning. Motivated by these findings, we propose AGDO, an attention-guided denoising and optimization framework that aligns both training and optimization with attention-derived dependencies. AGDO determines the denoising order based on attention structure and emphasizes attention-critical tokens during supervised fine-tuning and reinforcement learning. Experiments on mathematical and coding benchmarks demonstrate that AGDO consistently improves reasoning performance, outperforming state-of-the-art post-training methods for dLLMs.
- Abstract(参考訳): 拡散型大規模言語モデル(dLLMs)は、並列デコーディングによる自己回帰モデルの効率的な代替手段を提供するが、既存のトレーニング方法は、本質的にトークン依存を無視するランダムマスキング戦略に大きく依存している。
本研究は,dLLMの注目度を実証的に分析し,無意味な文脈に係わるトークンの方が,世代安定性が向上し,推論において重要な役割を担っていることを示す。
これらの知見に触発され,注意誘導型評価・最適化フレームワークであるAGDOを提案し,学習と最適化の両面を注意に依存した依存関係に整合させる。
AGDOは、注意構造に基づいて装飾順序を決定し、監督された微調整および強化学習中に注意クリティカルトークンを強調する。
数式およびコーディングベンチマークの実験では、AGDOは推論性能を一貫して改善し、dLLMの最先端のポストトレーニング方法よりも優れていた。
関連論文リスト
- Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - DARE: Diffusion Large Language Models Alignment and Reinforcement Executor [36.88819250898739]
textbfDARE (textbfdLLMs textbfAlignment and textbfReinforcement textbfExecutor) は,dLLMの訓練後評価を行うオープンフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T18:13:19Z) - Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models [60.25003813232697]
本稿では,Masked Diffusion Models (MDMs) のトレーニング自由適応ガイダンスフレームワークとして,適応検索型Masked Diffusion (ARAM) を提案する。
ARAMは、検索した文脈によって誘導される分布シフトのSNR(Signal-to-Noise Ratio)に従って、雑音発生時の誘導スケールを校正する。
複数の知識集約型QAベンチマークの実験は、ARAMが競争力のあるRAGベースラインよりも全体的なQA性能を改善することを示している。
論文 参考訳(メタデータ) (2026-03-18T12:54:50Z) - Attention-Based Sampler for Diffusion Language Models [16.008464195041984]
本研究では,Attn-Samplerと呼ばれる新しい学習自由復号アルゴリズムを提案する。
注意列和の順にトークンを復号することで、最適なシーケンス確率をほぼ達成できることを示す。
論文 参考訳(メタデータ) (2026-03-18T07:49:13Z) - Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages [7.728607011076579]
強化学習は、自己回帰言語モデル(AR)の訓練後において有効であるが、これらの手法を拡散言語モデル(DLM)に拡張することは、難易度が高いため困難である。
拡散に基づくシーケンス生成を有限水平マルコフ決定過程としてデノベーション軌道上で定式化し、正確な偏りのない政策勾配を導出する。
コーディングと論理的推論ベンチマークの実験は、数学的推論に強い競争性能を持つ最先端の結果を示している。
論文 参考訳(メタデータ) (2026-03-13T01:38:44Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。