論文の概要: When Top-1 Fails: Calibrating LoRA Monitors for Masked Diffusion LMs
- arxiv url: http://arxiv.org/abs/2606.24119v1
- Date: Tue, 23 Jun 2026 04:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.760192
- Title: When Top-1 Fails: Calibrating LoRA Monitors for Masked Diffusion LMs
- Title(参考訳): Top-1 障害時:仮設拡散型 LM 用 LoRA モニターの校正
- Authors: Lucky Verma, Pratik Yadav,
- Abstract要約: 離散拡散言語モデルファインチューニングは、信頼性モニタから安価な診断を継承するが、PEFT訓練の意味は未検証である。
崩壊警報としてトップ-1 argmax濃度を試験した。
3つのDLMファミリーの816 LoRA/PEFT構成で、ログは200ステップの水平線で0/816の実際の崩壊を記録し、精度はゼロである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion language model (DLM) fine-tuning inherits inexpensive diagnostics from denoising-time confidence monitors, but their PEFT-training meaning is untested. We test top-1 argmax concentration as a collapse warning. Across 816 LoRA/PEFT configurations from three DLM families, the warning fires for every configuration while logs record 0/816 actual collapses at the 200 step horizon, giving zero precision. The cause is pre-equilibrium saturation: top-1 concentration is already high before optimization and quickly becomes insensitive to final training stability. We then evaluate max LoRA gradient norm, a parameter-side signal that samples gradient routing rather than token concentration. On a pooled held-out LLaDA-family split, a train-optimized threshold identifies top-decile final-loss configurations with precision 0.68 and F1=0.79, above the all-positive top-1 baseline even at the lower split-bootstrap confidence bound. Autoregressive controls and cross-family threshold failures bound the result to short-horizon DLM-LoRA inspection rather than a universal collapse detector. Workflow: drop top-1 as a PEFT alarm, log max-gradient early in training, and calibrate thresholds per DLM family before routing runs for inspection.
- Abstract(参考訳): 離散拡散言語モデル(DLM)の微調整は、遅延時間信頼性モニタから安価な診断を継承するが、PEFT訓練の意味は未検証である。
崩壊警報としてトップ-1 argmax濃度を試験した。
3つのDLMファミリーの816 LoRA/PEFT構成で、ログは200ステップの水平線で0/816の実際の崩壊を記録し、精度はゼロである。
トップ1濃度はすでに最適化前に高くなり、最終的な訓練安定性に敏感になる。
次に、トークン濃度ではなく勾配経路をサンプリングするパラメータ側信号である最大ロラ勾配ノルムを評価する。
プールされたLLaDAファミリー分割では、列車最適化しきい値が、低いスプリット・ブートストラップ信頼境界においてさえ、全陽性のトップ1ベースラインの0.68とF1=0.79の上位決定的な最終ロス構成を識別する。
自己回帰制御と断面積のしきい値の故障は、普遍的な崩壊検知器ではなく、短水平DLM-LoRA検査に拘束される。
ワークフロー: PEFTアラームとしてtop-1をドロップし、トレーニングの初期段階でログを最大勾配にし、検査のためにルーティングを実行する前にDLMファミリ毎にしきい値のキャリブレーションを行う。
関連論文リスト
- SDS-LoRA: Overcoming Anisotropic Gradient Scaling in Low-Rank Adaptation [64.33799467286265]
Low-Rank Adaptation (LoRA)は、大規模な事前訓練されたモデルの下流タスクへの効率的な適応を可能にする。
完全な微調整勾配が低ランク行列に逆伝播すると,その特異値によって誘導される異方性スケーリングを受けることを示す。
本稿では,後方パスから特異値を構造的に分離する新しい低ランクパラメータ化SDS-LoRAを提案する。
論文 参考訳(メタデータ) (2026-06-15T09:27:50Z) - Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training [5.976336341654394]
低ビット浮動小数点フォーマットによる量子化対応トレーニング(QAT)は、効率的なLCMデプロイメントを実現するが、標準的なトレーニングメトリクスには見えない微妙な障害モードを導入する。
遅延スケーリング(DTS)によるOpenPangu-Embedded-1B用HiF8 W8A8 QATの系統的研究について述べる。
我々は、2つの障害モードを同定し、分離する: (i)max saturation、遅延スケール、フォワードパスクリッピングによる知識に敏感な表現を推定する; (ii)カタストロフィックな忘れ、そして、アグレッシブラーニングレートは、量子化とは無関係に事前訓練されたコモンセンス知識を上書きする。
論文 参考訳(メタデータ) (2026-05-25T09:19:57Z) - Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study [31.968379218484746]
ゲート決定は、言語モデリング(LM)の損失に影響を与える前に、多くのレイヤを通して伝播しなければならない。
補助的な損失はトレーニングを安定させるために積み重ねられることが多いが、それらの間の相互作用、特に予測的な補助的なスコアと明示的なスコアの監督の間の相互作用は、制御された条件下で体系的に比較されていない。
これは、後続のすべてのレイヤがフルに実行されると仮定する、オフポリティのオラクルラベルにトレースしますが、ゲートされた実行ルートはフルに1分しかありません。
論文 参考訳(メタデータ) (2026-04-19T03:20:40Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Scaling with Collapse: Efficient and Predictable Training of LLM Families [8.979516613284174]
崩壊は計算効率のトレーニングのサインとして現れる。
計算効率のトレーニングのサインとして崩壊が現れることを示す。
大規模に2つの応用を実演する。
論文 参考訳(メタデータ) (2025-09-29T17:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。