Fugu-MT 論文翻訳(概要): EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning

論文の概要: EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.23038v1
Date: Mon, 22 Jun 2026 08:46:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 00:36:49.016143
Title: EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning
Title（参考訳）: EvoRubrics: LLM強化学習における逆転共進化によるリワードとしての動的ルーブリック
Authors: Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Zheng Li, Jinyang Zhang, Zhijing Wu, Junfeng Zhao, Yasha Wang,
Abstract要約: EvoRubricsは、ポリシージェネレータとRLジェネレータが、各トレーニングステップ内の対角的相互作用を通じて共同で改善される、共進化的なフレームワークである。 EvoRubricsは、ベンチマーク全体で、静的および動的ルーブリックを一貫して上回っている。
参考スコア（独自算出の注目度）: 22.209572966965165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rubric-based rewards offer interpretable and fine-grained optimization signals for reinforcement learning in open-ended tasks where verifiable answers are unavailable. However, pre-constructed rubrics remain static throughout training, creating a fundamental mismatch with the evolving policy: fixed criteria gradually lose discriminative power as the model improves, leading to reward saturation and potential hacking. Recent dynamic rubric methods partially address this but rely on external frontier models or ground-truth answers, and update rubrics only at coarse granularity. We propose EvoRubrics, a co-evolutionary RL framework where a Policy LLM and a Rubric Generator jointly improve through adversarial interaction within each training step. As the policy improves under the rubric generator's guidance, the rubric generator adapts its criteria to remain discriminative and informative, enabling evaluation to track the policy in real time and naturally inducing an automatic curriculum. Experiments show that EvoRubrics consistently outperforms static and dynamic rubric baselines across benchmarks. The learned Rubric Generator further generalizes as a transferable reward model. Notably, even a fully self-supervised variant without any external supervision achieves meaningful gains, suggesting that co-evolution between generation and evaluation alone can provide sufficiently rich learning signals. Our code is publicly available at https://anonymous.4open.science/r/EvoRubrics-2155/.
Abstract（参考訳）: ルーブリックベースの報酬は、検証可能な答えが得られないオープンエンドタスクにおいて、強化学習のための解釈可能できめ細かい最適化信号を提供する。しかし、事前構築されたルーリックはトレーニングを通じて静的のままであり、進化するポリシーと根本的なミスマッチを生じさせる: 固定された基準は、モデルの改善に伴って差別的なパワーを徐々に失い、飽和と潜在的ハッキングに報いる。最近の動的ルーリック法は、部分的にはこの問題に対処するが、外部フロンティアモデルや接地トラス解に依存し、粗い粒度でのみルーリックを更新する。 EvoRubrics はポリシー LLM とルーブリックジェネレータを併用し,各トレーニングステップ内での対角的相互作用によって協調的に改善する,共進化的 RL フレームワークである。ルーブリックジェネレータの指導の下でポリシーが改善するにつれて、ルーブリックジェネレータはその基準を差別的で情報的であり続けるように調整し、ポリシーをリアルタイムで追跡し、自動カリキュラムを自然に誘導する評価を可能にする。実験の結果、EvoRubricsはベンチマーク全体で静的および動的ルーリックベースラインを一貫して上回っている。学習されたルーブリックジェネレータは、転送可能な報酬モデルとしてさらに一般化する。特に、外部監督のない完全自己監督型でさえ有意義な利益を達成し、生成と評価の共進化だけで十分に豊かな学習信号が得られることを示唆している。私たちのコードはhttps://anonymous.4open.science/r/EvoRubrics-2155/で公開されています。

論文の概要: EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning

関連論文リスト