論文の概要: Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short
- arxiv url: http://arxiv.org/abs/2606.09380v1
- Date: Mon, 08 Jun 2026 11:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.95568
- Title: Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short
- Title(参考訳): Reasoning Arena: 検証可能なリワードが短くなったときのトレーストーナメント
- Authors: Han Zhou, Adam X. Yang, Laurence Aitchison, Anna Korhonen, Albert Q. Jiang,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力向上のための主要なパラダイムとなっている。
本研究では,非多変量報酬群を判定システムにルーティングする適応学習フレームワークであるReasoning Arenaを提案する。
我々は、Reasoning Arenaが、競争数学やコーディングベンチマークにおいて、RLVRベースラインを平均で7.6%上回っていることを示す。
- 参考スコア(独自算出の注目度): 51.667769734342635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language models through outcome-based supervision. However, verifiable rewards frequently become uninformative at the group level: when all sampled traces of a given prompt receive identical rewards, group-relative advantage estimation provides no gradient signal, even though the traces may differ substantially in reasoning quality. We propose Reasoning Arena, an adaptive training framework that routes such non-diverse reward groups to a judge system instead of discarding them. Beyond examining the final answer, Reasoning Arena constructs trace tournaments, where reasoning traces are compared head-to-head to expose finer-grained preferences within the group, converting reasoning quality into rich relative reward signals. To make reward estimation efficient, rather than exhaustively comparing every pair, each new trace is evaluated against a small, dynamically updated pool of previously generated traces as anchors to efficiently establish a relative ranking. We then fit a Bradley-Terry model on the incomplete comparison graph, enabling scalable RL integration without quadratic pairwise comparisons. Empirical results demonstrate that Reasoning Arena consistently outperforms the RLVR baseline by 7.6% on average in competition mathematics and coding benchmarks. By converting otherwise wasted zero-advantage samples into useful gradient updates, our method accelerates training by 27% to 41%, saving nearly 50% of generation compute, and substantially improves overall reasoning performance.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、結果に基づく監督を通じて、大規模言語モデルの推論能力を向上させるための主要なパラダイムとなっている。
しかしながら、検証可能な報酬は群レベルでしばしば非形式的になる:与えられたプロンプトのすべてのサンプルトレースが同じ報酬を受けるとき、グループ相対的優位性推定は、そのトレースが推論品質において著しく異なるとしても、勾配信号を提供しない。
本研究では,非多変量報酬群を判定システムにルーティングする適応学習フレームワークであるReasoning Arenaを提案する。
最終回答のほかに、Reasoning Arenaはトレーストーナメントを構築しており、そこでは、推論のトレースを比較して、グループ内のよりきめ細かい好みを露呈し、推論品質をリッチな相対的な報酬信号に変換する。
各ペアを徹底的に比較するのではなく、報酬推定を効率よく行うために、各新しいトレースを、予め生成されたトレースの小さな動的更新プールに対してアンカーとして評価し、相対ランクを効率よく確立する。
次に、Bradley-Terryモデルを不完全比較グラフに適合させ、二次対比較なしでスケーラブルなRL積分を可能にする。
実験の結果、Reasoning Arenaは競争数学やコーディングのベンチマークでRLVRのベースラインを平均で7.6%上回っている。
不要なゼロアドバンテージサンプルを有用な勾配更新に変換することで、トレーニングを27%から41%高速化し、世代計算の50%近くを節約し、全体的な推論性能を大幅に改善する。
関連論文リスト
- ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents [48.80766702702854]
LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、群内の優位性はゼロとなり、勾配は得られない。
ARBOR(Adaptive Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
論文 参考訳(メタデータ) (2026-06-02T06:58:54Z) - VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness [26.85256114041302]
検証可能なリワードによる強化学習は、検証可能な最終回答に報酬を与えることで、マルチモーダル推論を改善する。
この回答の正しさと推論の妥当性のギャップは、マルチモーダルRLにおける軌道監督を動機付けている。
グループワイドランキング Reward は、1回のパスで同じプロンプトに対して検証器が通過した軌跡をランク付けし、それに応じて報酬を再分配する。
論文 参考訳(メタデータ) (2026-04-20T22:28:07Z) - RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。