論文の概要: Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
- arxiv url: http://arxiv.org/abs/2606.21906v1
- Date: Sat, 20 Jun 2026 07:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 00:00:35.77107
- Title: Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
- Title(参考訳): より深く、常に良くない - 信頼層デコーディングによるアライメント税の緩和
- Authors: Xuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou,
- Abstract要約: 我々は、最も信頼性の高いニアファイナル層を動的に選択する、トレーニング不要なデコーディング戦略であるConfident Decodingを紹介する。
密集型および混合型LLMの実験は、挑戦的推論ベンチマークにおいて一貫した利得を示す。
- 参考スコア(独自算出の注目度): 92.1521161575198
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive generation in large language models (LLMs) conventionally decodes from the final layer, assuming that deeper representations yield more reliable next-token predictions. We revisit this assumption by revealing a recurring Guess-Refine-Perturb dynamic: early layers form coarse guesses, intermediate layers refine reasoning-relevant semantics, and final layers can perturb these refined predictions toward generic or alignment-preferred tokens. We introduce Confident Decoding, a training-free decoding strategy that dynamically selects the most reliable near-final layer through entropy-guided conservative backward search. We further provide a theoretical formulation of layer selection as an optimal stopping problem, showing that under bounded projection noise and dominant late-stage alignment perturbation, our search rule filters perturbation while bounding the loss relative to the oracle refinement layer. Experiments across dense and Mixture-of-Experts LLMs demonstrate consistent gains on challenging reasoning benchmarks, including GPQA-Diamond, Omni-MATH, and HLE, with zero memory overhead and less than 2% latency increase. These results suggest dynamically bypassing final-layer perturbations can unlock stronger reasoning behavior from aligned LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における自己回帰生成は、より深い表現がより信頼性の高い次世代の予測をもたらすと仮定して、伝統的に最終層からデコードされる。
初期層は粗い推測を形成し、中間層は推論関連セマンティクスを洗練させ、最終層はこれらの洗練された予測をジェネリックまたはアライメント優先のトークンに向けて摂動することができる。
我々は、エントロピー誘導の保守的後方探索により、最も信頼性の高いニアファイナル層を動的に選択する、トレーニング不要な復号法であるConfident Decodingを導入する。
さらに、最適停止問題として層選択の理論的定式化を行い、有界射影雑音と支配的な後期アライメント摂動の下では、我々の探索規則は、オラクル精製層に対する損失を抑えながら摂動をフィルタすることを示した。
GPQA-Diamond、Omni-MATH、HLEなど、高密度および高密度な試験用LLMに対する実験では、メモリオーバーヘッドがゼロで、レイテンシが2%未満の、挑戦的な推論ベンチマークにおいて、一貫した利得が示されている。
これらの結果から, 最終層摂動を動的に回避することで, 整列LLMの強い推論動作を解き放つことが示唆された。
関連論文リスト
- SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration [13.454534256560558]
投機的復号化は、大規模言語モデルにおける自己回帰推論を加速するための有望なアプローチとして現れている。
そこで本稿では, 早期終了判定において, 温度アニールによる急激な信頼を抑える, 新たなセルフドラフトフレームワークを提案する。
提案手法は,従来の自己回帰復号法に比べて最大2.33倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-04-14T03:47:04Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - When Less Is More? Diagnosing ASR Predictions in Sardinian via Layer-Wise Decoding [39.94212430129149]
多言語音声モデルの中間層は、最終的な出力層よりも音声的に正確な表現を符号化することが多い。
上変圧器層をトラッピングするとPhonme Error Rates (PER) が向上し, 最良性能は最終層ではなく, 2層先に達成された。
論文 参考訳(メタデータ) (2026-02-10T22:45:03Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations [15.542741121573203]
LAGERは「LLM-as-a-Judge」評価と人間のスコアとのアライメントを改善するためのフレームワークである。
本研究では,Frask,HelpSteer,BIGGenの標準アライメントベンチマークをSpearman相関を用いて評価し,LAGERが最高のベースラインに対して最大7.5%の改善を実現していることを確認した。
論文 参考訳(メタデータ) (2025-08-05T15:18:36Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。