論文の概要: STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
- arxiv url: http://arxiv.org/abs/2606.19236v1
- Date: Wed, 17 Jun 2026 16:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.2624
- Title: STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
- Title(参考訳): STARE: 政策エントロピー安定のための予備誘導トークンレベルアドバンテージリヘアリング
- Authors: Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang,
- Abstract要約: GRPOの下でトークンレベルのエントロピーダイナミクスの1次勾配解析を行う。
本稿では,バッチ内部量子化によるエントロピークリティカルトークンのサブセットを識別するSTAREを提案する。
AIME24とAIME25では、STAREはDAPOや他の競争ベースラインを平均精度で4%-8%上回っている。
- 参考スコア(独自算出の注目度): 78.63876433996107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards algorithms like GRPO have emerged as the dominant post-training paradigm for complex reasoning in LLMs, yet commonly suffer from policy entropy collapse during training. We conduct a first-order gradient analysis of token-level entropy dynamics under GRPO and identify a token-level credit assignment mismatch: the per-token entropy variation decomposes into the product of the trajectory-level advantage and an entropy sensitivity function over the next-token distribution, yielding an advantage-surprisal four-quadrant structure and a near-criticality property. Motivated by it, we propose STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability), which identifies entropy-critical token subsets via batch-internal surprisal quantiles, selectively reweights their effective advantages, and incorporates a target-entropy closed-loop gate for stable entropy regulation. Across model scales from 1.5B to 32B and three task families (Short CoT, Long CoT, and Multi-Turn Tool Use), STARE sustains stable RL training over thousands of steps while maintaining policy entropy within the target band. On AIME24 and AIME25, STARE outperforms DAPO and other competitive baselines by 4%-8% in average accuracy, with reflection tokens and response length growing in tandem, indicating sustained exploration-exploitation balance that further unlocks RL training potential.Code is available at https://github.com/hp-luo/STARE.
- Abstract(参考訳): GRPOのような検証可能なリワードアルゴリズムによる強化学習は、LLMにおける複雑な推論のための訓練後の主要なパラダイムとして現れてきたが、一般的には訓練中にポリシーのエントロピーの崩壊に悩まされている。
我々はGRPOの下でトークンレベルのエントロピーダイナミクスの1次勾配解析を行い、トークンレベルのクレジット割り当てミスマッチを同定する: トラジェクトリレベルの利点と次のトケン分布上のエントロピー感度関数の積に分解される。
そこで我々は,STARE(Surprisal-guided Token-level Advantage Reweighting for Policy Entropy stability)を提案する。これは,バッチ内部量子化によるエントロピー臨界トークンサブセットを同定し,有効性を選択的に再重み付けし,安定なエントロピー制御のためのターゲットエントロピー閉ループゲートを組み込む。
モデル全体のスケールは1.5Bから32B、タスクファミリ(ショートCoT、ロングCoT、マルチTurn Tool Use)で、STAREはターゲットバンド内のポリシーエントロピーを維持しながら、数千ステップ以上の安定したRLトレーニングを継続する。
AIME24とAIME25では、STAREは平均精度でDAPOやその他の競争ベースラインを4%-8%上回り、リフレクショントークンと応答長はタンデムで増加し、RLトレーニングの可能性をさらに開放する持続的な探索-探索バランスを示す。
関連論文リスト
- OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning [17.98540130851038]
検証可能な報酬を伴う強化学習は、LSM推論を改善するための標準的なレシピとなっている。
しかし、支配的なアルゴリズム GRPO は全てのトークンに対して単一の軌道レベルの利点を割り当てる。
我々は,Oracle-Prompted Policy Optimization (OPPO)を提案する。
論文 参考訳(メタデータ) (2026-05-21T00:55:13Z) - Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control [77.8471519867791]
実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:47:05Z) - Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Sequence-Level Likelihood [9.53011880338711]
TEPOは,グループレベルの報酬を個々のトークンに関連付けるために,シーケンスレベルの可能性を活用する新しいトークンレベルのフレームワークである。
TEPOが数学的推論ベンチマークで最先端のパフォーマンスを達成することを示す実験結果が得られた。
また、GRPO/DAPOと比較して、トレーニングの安定性を著しく向上し、収束時間を50%削減する。
論文 参考訳(メタデータ) (2026-04-14T13:50:31Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - Agentic Entropy-Balanced Policy Optimization [114.90524574220764]
エージェント強化学習(Agentic RL)は,Webエージェントの多ターン,長期ツール利用能力の活性化に大きく貢献している。
RLアルゴリズムはエントロピーの誘導の下で、高不確実性ツールコールステップを自律的に探索するが、エントロピー信号への過度な依存は、さらなる制約を課す可能性がある。
本稿では,エージェント・エントロピー・バランサード・ポリシー最適化(AEPO, Agentic Entropy-Balanced Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-16T10:40:52Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。