論文の概要: Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.10346v1
- Date: Tue, 09 Jun 2026 02:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.27639
- Title: Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning
- Title(参考訳): 推論と記憶 : LLM強化学習における方向性を考慮した多様性探索
- Authors: Jiangnan Xia, Yucheng Shi, Yu Yang, Kishan Panaganti, Zhenwen Liang, Ninghao Liu,
- Abstract要約: 強化学習は、大規模言語モデルにおいて推論能力を引き出すための重要なパラダイムとなっている。
政策の内的推論・記憶方向を探索する方向認識強化学習フレームワークであるDiRLを提案する。
- 参考スコア(独自算出の注目度): 40.73985999918812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become a key paradigm for eliciting reasoning abilities in large language models, where exploration is crucial for discovering effective solution trajectories. Existing exploration methods typically encourage diversity in semantic or gradient spaces, without distinguishing what drives this diversity. A trajectory may appear novel because it follows a new reasoning process, or because it varies memorized patterns and shortcuts. Rewarding both cases equally may steer exploration toward memorization rather than genuine reasoning improvement. In this paper, we propose DiRL, a Direction-Aware Reinforcement Learning framework that anchors exploration to an internal reasoning-memorization direction of the policy. Specifically, DiRL extracts this direction from model representations, constructs direction-weighted gradient features to characterize rollout updates, and shapes rewards to amplify reasoning-aligned exploration while suppressing memorization-aligned variations. DiRL integrates seamlessly into standard Group Relative Policy Optimization (GRPO). Extensive experiments on mathematical and general reasoning benchmarks demonstrate the effectiveness of DiRL, showing significant improvements over various existing exploration methods.
- Abstract(参考訳): 強化学習は大規模言語モデルにおいて推論能力を引き出すための重要なパラダイムとなり、効率的な解軌道の発見には探索が不可欠である。
既存の探索手法は一般的に、この多様性を導くものを区別することなく、意味空間や勾配空間の多様性を促進する。
軌跡は、新しい推論プロセスに従うか、記憶されたパターンやショートカットを変えるため、新しく見えるかもしれない。
両方のケースを等しくリワードすることは、真の推論の改善よりも、記憶への探索を後押しする可能性がある。
本稿では,ディレクテーション・アウェア・強化学習フレームワークであるDiRLを提案する。
具体的には、DiRLは、モデル表現からこの方向を抽出し、ロールアウト更新を特徴付ける方向重み付き勾配特徴を構築し、メモリ化整列変動を抑えつつ、推論整列探索を増幅する報酬を形作る。
DiRLは、標準グループ相対ポリシー最適化(GRPO)にシームレスに統合される。
数学的および一般的な推論ベンチマークに関する大規模な実験は、様々な既存探査法よりも大幅に改善されたDiRLの有効性を示した。
関連論文リスト
- SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models [51.99912169291891]
強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。
逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。
この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-04-18T13:49:47Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards [33.42935710088259]
MERCI(Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards)を導入する。
MERCIは、より豊かで多様な思考の連鎖を促進し、強力なベースラインよりも性能を著しく向上させ、より優れたソリューションを見つけるために、ローカルルーチンから逃れるのに役立ちます。
論文 参考訳(メタデータ) (2025-10-18T18:57:26Z) - Outcome-based Exploration for LLM Reasoning [18.33816564983908]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を向上させる強力な手法として登場した。
ベースモデルに対するトレーニングセットにおいても,RLは効果的な多様性を低下させることができることを示す。
最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
論文 参考訳(メタデータ) (2025-09-08T17:52:56Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。