論文の概要: ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.13316v1
- Date: Thu, 11 Jun 2026 13:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.80946
- Title: ReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning
- Title(参考訳): まとめ:強化学習によるLLM推論と要約のシンセサイザー化
- Authors: Xucong Wang, Ziyu Ma, Yong Wang, Shidong Yang, Hailang Huang, Renda Li, Pengkun Wang, Xiangxiang Chu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models (LLMs)における長軸推論を改善する中心的手法である。
既存のRLVR手法は、しばしば不要に長い推論ロールアウトを奨励し、推論コヒーレンスを低下させ、利用可能なコンテキスト予算を浪費する。
本稿では,LLM の自己要約による推論軌道の圧縮と整理を可能にする新しい RLVR フレームワーク ReSum を提案する。
- 参考スコア(独自算出の注目度): 26.508437723503206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a central technique for improving long-horizon reasoning in Large Language Models (LLMs). However, existing RLVR methods often encourage unnecessarily long reasoning rollouts, which can degrade reasoning coherence and exhaust the available context budget. Existing approaches to long-context organization often depend on external mechanisms to organize rollouts, rather than enabling the model to manage its own reasoning trajectory. To address this limitation, we propose ReSum, a novel RLVR framework that enables LLMs to compress and organize their reasoning trajectories through self-summarization. Our pilot studies show that self-summarization stabilizes generation by lowering token-level entropy, and that introducing a ``summarization'' phrase can substantially mitigate errors propagated from an incorrect rollout prefix. Motivated by these findings, ReSum adopts a summarization-aware adaptive rollout mechanism that contrastively evaluates whether self-summarization benefits the ongoing reasoning process. Specifically, when the model spontaneously triggers self-summarization, ReSum masks the summarization phrase to create a contrastive branch; for non-summarization positions, it instead randomly injects the phrase to create a matched branch. We further design a summarization-aware advantage to enable finer-grained comparison between contrastive rollout trajectories. Extensive experiments show that ReSum improves performance at an average of 4\% while reducing rollout length by 18.6\%.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLMs) における長距離推論を改善する中心的な手法である。
しかし、既存のRLVR手法は、しばしば不要に長い推論ロールアウトを奨励し、推論コヒーレンスを低下させ、利用可能なコンテキスト予算を浪費することができる。
従来のロングコンテキストな組織へのアプローチは、モデルが独自の推論軌道を管理することを可能にするのではなく、ロールアウトを組織する外部メカニズムに依存していることが多い。
この制限に対処するために,LLM の自己要約による推論軌道の圧縮と整理を可能にする新しい RLVR フレームワーク ReSum を提案する。
パイロット実験では,トークンレベルのエントロピーを低くすることで自己サマー化が生成を安定化し,'summarization'というフレーズを導入することで,不正なロールアウトプレフィックスから伝播するエラーを大幅に軽減できることが示された。
これらの知見に触発されて、ReSumは要約対応のロールアウト機構を採用し、自己要約が進行中の推論プロセスに有効であるかどうかを対照的に評価する。
具体的には、モデルが自発的に自己要約をトリガーすると、ReSumは要約フレーズをマスキングしてコントラスト分岐を生成する。
さらに、比較的なロールアウト軌跡のよりきめ細かい比較を可能にするために、要約対応の利点を設計する。
大規模な実験では、ReSumはロールアウトの長さを18.6\%減らしながら、平均4\%の性能を改善した。
関連論文リスト
- AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment [39.63424981516754]
非対称メタ反射型自己蒸留(AMR-SD)
非対称なReLUゲートしきい値を持つ因果情報ゲイン(CIG)を導入し、これらの反射をスパースで高精度なトークンレベルの利点変調に変換する。
科学的、数学的、ツール使用のベンチマークによる実験は、AMR-SDが既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-18T15:14:34Z) - SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling [19.22335478070254]
MLLM自己進化におけるCSRS(Continuous Softened Retracing ReSampling)を提案する。
具体的には,ロングテール推論経路の探索を拡大するために,アンカーポイントからモデルの再推論を行うRetracing Re-inference Mechanism (RRM)を提案する。
CSRSは,MathVisionなどのベンチマークにおけるQwen2.5-VL-7Bの推論性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-04-04T08:52:43Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文 参考訳(メタデータ) (2025-11-13T18:47:07Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - Inference Scaling for Bridging Retrieval and Augmented Generation [47.091086803980765]
大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。
このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。
ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文 参考訳(メタデータ) (2024-12-14T05:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。