論文の概要: Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.18831v1
- Date: Wed, 17 Jun 2026 09:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.07673
- Title: Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning
- Title(参考訳): Reward Engineeringを超えて - 長期強化学習のためのデータレシピ
- Authors: Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao,
- Abstract要約: 長文推論は、大規模言語モデルにとって不可欠な機能である。
結果に基づく最小限のGRPO設定と組み合わせた単純なデータレシピだけでは、長文推論を大幅に改善するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 10.60628314003646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context reasoning is an essential capability for large language models, particularly when they are deployed as autonomous agents that must reason over lengthy trajectories. Reinforcement learning (RL) has recently emerged as a dominant paradigm for improving this ability, yet existing work largely focuses on reward engineering while diverse training data remains scarce. We revisit this problem from a data-centric perspective and show that a simple yet effective data recipe alone, paired with a minimal outcome-based GRPO setup, suffices to substantially improve long-context reasoning. Our recipe targets three complementary task families -- retrieval, multi-evidence synthesis, and reasoning -- for which we construct and curate eight datasets totaling ~14K examples. Experiments on three models (Qwen3-4B/8B/30B-A3B) yield average gains of +7.2/+3.2/+6.4 points across seven long-context benchmarks, surpassing prior RL training sets. We further demonstrate that these gains transfer to agentic tasks, where continuing RL training on an agent-tuned model with our data recipe improves GAIA by +4.8 and BrowseComp by +7.0 points. We will release our datasets to facilitate future research.
- Abstract(参考訳): 長文推論は大規模言語モデルにとって必須の能力であり、特に長い軌跡を推論しなければならない自律エージェントとしてデプロイされる場合である。
強化学習(Reinforcement Learning, RL)は、最近、この能力を改善するための主要なパラダイムとして登場したが、既存の研究は報奨工学に重点を置いている。
我々は、この問題をデータ中心の観点から再考し、結果に基づく最小限のGRPOセットアップと組み合わせた、単純で効果的なデータレシピだけで、長文推論を大幅に改善できることを示す。
提案手法は, 検索, マルチエビデンス合成, 推論という3つの補完的なタスクファミリを対象とし, 8つのデータセットを構築し, 合計14Kのサンプルをキュレートする。
3つのモデル(Qwen3-4B/8B/30B-A3B)の実験では、7つの長文ベンチマークで+7.2/+3.2/+6.4ポイントの平均利得が、以前のRLトレーニングセットを上回った。
さらに、エージェントチューニングされたモデルでのRLトレーニングをデータレシピで継続すると、GAIAが+4.8、BrowseCompが+7.0ポイント向上する。
将来の研究を促進するために、データセットをリリースします。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。