論文の概要: Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs
- arxiv url: http://arxiv.org/abs/2606.17735v1
- Date: Tue, 16 Jun 2026 09:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.383923
- Title: Shattering the Autoregressive Curse: Dynamic Epistemic Entropy Orchestrated Erasable Reinforcement Learning for LLMs
- Title(参考訳): 自己回帰曲線の破砕: LLMにおける動的てんかん性エントロピーオーケストレーション型除菌強化学習
- Authors: Ziliang Wang, Kang An, Faqiang Qian, Jialu Cai, Cijun Ouyang, Yuhang Wang, Qibing Ren, Yichao Wu,
- Abstract要約: 長期論理的推論のための消去可能な強化学習を提案する。
$textE3textRL$は、モデルの内在的なローカル自己回帰的クロスエントロピーを基盤にすることで、外部信号への依存を排除します。
DeepMath-103kデータセットで$textE3textRL$をトレーニングします。
- 参考スコア(独自算出の注目度): 21.321550377588427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although reinforcement learning (RL) has expanded the cognitive boundaries of large language models (LLMs), it often remains vulnerable to the autoregressive curse in long-horizon logical reasoning: small epistemic perturbations introduced early in generation can propagate irreversibly along the Markov decision process flow, triggering cascading failures that drive the reasoning trajectory toward collapse. To overcome this autoregressive cascade, in which a single early mistake can compromise all subsequent reasoning steps, we propose dynamic epistemic entropy orchestrated erasable reinforcement learning ($\text{E}^3\text{RL}$). $\text{E}^3\text{RL}$ eliminates reliance on external signals by grounding the model's endogenous local autoregressive cross-entropy as an intrinsic coordinate of epistemic uncertainty. By introducing segment-level adaptive dynamic thresholds and advantage allocation, $\text{E}^3\text{RL}$ enables the model to precisely excise localized logical defects while reusing historical key-value (KV) cache streams, thereby endowing the reasoning process with a self-healing capability. We train $\text{E}^3\text{RL}$ on the DeepMath-103k dataset. Experimental results show that $\text{E}^3\text{RL}$ reshapes the exploration efficiency of long-sequence reasoning and improves sample efficiency while maintaining linear memory overhead. On mathematical reasoning benchmarks such as AIME, $\text{E}^3\text{RL}$ achieves substantial performance gains, with the 4B and 8B parameter models surpassing previous state-of-the-art (SOTA) results by 5.349\% and 6.514\%, respectively. These findings suggest that $\text{E}^3\text{RL}$ shatters the autoregressive curse in long-sequence reasoning and establishes a theoretical and systems-level foundation for the next generation of self-healing artificial general intelligence (AGI).
- Abstract(参考訳): 強化学習(RL)は、大きな言語モデル(LLM)の認知的境界を広げているが、長い水平論理的推論において自己回帰的呪いに弱いままである。
この自己回帰的カスケードを克服するために、一つの早期誤りがその後のすべての推論ステップを損なうことができるように、動的にエピステマ性エントロピーを編成した消去可能強化学習(\text{E}^3\text{RL}$)を提案する。
$\text{E}^3\text{RL}$は、内因性局所自己回帰的クロスエントロピーを内在的不確実性の座標として基礎付けることにより、外部信号への依存を排除している。
セグメントレベルの適応的動的しきい値とアドバンテージアロケーションを導入することで、$\text{E}^3\text{RL}$は、履歴キー値(KV)キャッシュストリームを再利用しながら、局所的な論理的欠陥を正確に抽出し、自己修復機能を備えた推論プロセスを実現する。
DeepMath-103kデータセットで$\text{E}^3\text{RL}$をトレーニングします。
実験結果から、$\text{E}^3\text{RL}$は、長いシーケンス推論の探索効率を再評価し、線形メモリオーバーヘッドを維持しながらサンプル効率を向上させることが示された。
AIMEのような数学的推論ベンチマークでは、$\text{E}^3\text{RL}$は、それぞれ5.349\%と6.514\%の4Bと8Bのパラメータモデルで、大幅な性能向上を実現している。
これらの結果は、$\text{E}^3\text{RL}$が長期の推論において自己回帰的呪いを破滅させ、次世代の自己修復人工知能(AGI)の理論的かつシステムレベルの基盤を確立することを示唆している。
関連論文リスト
- Relative Kinetic Utility for Reasoning-Aware Structural Pruning in Large Language Models [0.0]
モデルの深さ多様体上での連続的な運動積分に離散的なプルーニングを高める新しい枠組みを提案する。
Qwen-2.5-7B と LLaMA-3-8B の試験により、高スパーシティのシステムの性能は40%向上した。
RKUはGSM8Kで40%の精度で13.34%の精度を達成し、最強のベースラインを上回った。
論文 参考訳(メタデータ) (2026-05-09T15:47:53Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - Universal One-third Time Scaling in Learning Peaked Distributions [48.44706450307606]
大規模言語モデル(LLMs)の訓練は、損失が低速なパワー・ロー・コンバージェンスを示すこともあって、計算コストがかかる。
本研究は,ソフトマックスとクロスエントロピーを用いて本質的にこの挙動が生じることを示す。
論文 参考訳(メタデータ) (2026-02-03T16:06:18Z) - Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs [18.37387666170851]
脆弱な推論を堅牢なプロセスに変換する新しいフレームワークであるERLを提案する。
ERLは、障害ステップを明確に識別し、それらを消去し、推論をその場で再生し、欠陥論理が推論チェーンを通過するのを防ぐ。
ESearchと呼ばれるERLでトレーニングされたモデルは、HotpotQA、MuSiQue、2Wiki、Bamboogleで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-01T13:10:36Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。