論文の概要: EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.23038v1
- Date: Mon, 22 Jun 2026 08:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:36:49.016143
- Title: EvoRubrics: Dynamic Rubrics as Rewards via Adversarial Co-Evolution for LLM Reinforcement Learning
- Title(参考訳): EvoRubrics: LLM強化学習における逆転共進化によるリワードとしての動的ルーブリック
- Authors: Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Zheng Li, Jinyang Zhang, Zhijing Wu, Junfeng Zhao, Yasha Wang,
- Abstract要約: EvoRubricsは、ポリシージェネレータとRLジェネレータが、各トレーニングステップ内の対角的相互作用を通じて共同で改善される、共進化的なフレームワークである。
EvoRubricsは、ベンチマーク全体で、静的および動的ルーブリックを一貫して上回っている。
- 参考スコア(独自算出の注目度): 22.209572966965165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubric-based rewards offer interpretable and fine-grained optimization signals for reinforcement learning in open-ended tasks where verifiable answers are unavailable. However, pre-constructed rubrics remain static throughout training, creating a fundamental mismatch with the evolving policy: fixed criteria gradually lose discriminative power as the model improves, leading to reward saturation and potential hacking. Recent dynamic rubric methods partially address this but rely on external frontier models or ground-truth answers, and update rubrics only at coarse granularity. We propose EvoRubrics, a co-evolutionary RL framework where a Policy LLM and a Rubric Generator jointly improve through adversarial interaction within each training step. As the policy improves under the rubric generator's guidance, the rubric generator adapts its criteria to remain discriminative and informative, enabling evaluation to track the policy in real time and naturally inducing an automatic curriculum. Experiments show that EvoRubrics consistently outperforms static and dynamic rubric baselines across benchmarks. The learned Rubric Generator further generalizes as a transferable reward model. Notably, even a fully self-supervised variant without any external supervision achieves meaningful gains, suggesting that co-evolution between generation and evaluation alone can provide sufficiently rich learning signals. Our code is publicly available at https://anonymous.4open.science/r/EvoRubrics-2155/.
- Abstract(参考訳): ルーブリックベースの報酬は、検証可能な答えが得られないオープンエンドタスクにおいて、強化学習のための解釈可能できめ細かい最適化信号を提供する。
しかし、事前構築されたルーリックはトレーニングを通じて静的のままであり、進化するポリシーと根本的なミスマッチを生じさせる: 固定された基準は、モデルの改善に伴って差別的なパワーを徐々に失い、飽和と潜在的ハッキングに報いる。
最近の動的ルーリック法は、部分的にはこの問題に対処するが、外部フロンティアモデルや接地トラス解に依存し、粗い粒度でのみルーリックを更新する。
EvoRubrics はポリシー LLM とルーブリックジェネレータを併用し,各トレーニングステップ内での対角的相互作用によって協調的に改善する,共進化的 RL フレームワークである。
ルーブリックジェネレータの指導の下でポリシーが改善するにつれて、ルーブリックジェネレータはその基準を差別的で情報的であり続けるように調整し、ポリシーをリアルタイムで追跡し、自動カリキュラムを自然に誘導する評価を可能にする。
実験の結果、EvoRubricsはベンチマーク全体で静的および動的ルーリックベースラインを一貫して上回っている。
学習されたルーブリックジェネレータは、転送可能な報酬モデルとしてさらに一般化する。
特に、外部監督のない完全自己監督型でさえ有意義な利益を達成し、生成と評価の共進化だけで十分に豊かな学習信号が得られることを示唆している。
私たちのコードはhttps://anonymous.4open.science/r/EvoRubrics-2155/で公開されています。
関連論文リスト
- INFUSER: Influence-Guided Self-Evolution Improves Reasoning [54.101135873140066]
2つの共進化的役割を持つ反復的協調学習フレームワークを導入する。
解答器は、生成元が提供する回答に対して標準正当性報酬で訓練される。
8B INF共進化ジェネレータは、数学とコーディングにおいて凍った32B思考ジェネレータより優れている。
論文 参考訳(メタデータ) (2026-06-08T05:40:36Z) - Self-evolving LLM agents with in-distribution Optimization [60.05867547965365]
大規模言語モデル(LLM)は最近、複雑な環境で対話的なエージェントのための強力なコントローラとして登場した。
本稿では,自動プロセス・リワードラベリングとポリシー学習を統一するLDMエージェントの自己進化フレームワークであるQ-Evolveを提案する。
我々は,AlfWorld,WebShop,ScienceWorldの手法を評価し,Q-Evolveがサンプル効率,堅牢性,全体的なタスク性能において高いベースラインを達成していることを示す。
論文 参考訳(メタデータ) (2026-06-05T15:09:52Z) - EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving via Self-Improving LLM Agents [59.44069233970625]
既存の手法は通常、手工芸品でこのトレードオフを管理し、探索されていないパターンを見渡す。
本稿では,シナリオ生成のためのLLMベースのエージェント進化フレームワークであるEvoDriveを紹介する。
EvoDriveはシミュレーターによるアクター批判アーキテクチャを採用しており、メモリ駆動アクターはジェネレータの改善を反復的に提案し、批判者は不明瞭な候補をフィルタリングする。
論文 参考訳(メタデータ) (2026-06-02T14:01:23Z) - EvoRubric: Self-Evolving Rubric-Driven RL for Open-Ended Generation [42.93367895323788]
EvoRubricは、独創的な共進化型強化学習フレームワークである。
静的な基準や外部のルーリックジェネレータへの依存をなくす。
従来の静的および外部LLM駆動アライメントメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-05-28T12:28:49Z) - EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics [86.49781345669436]
言語モデルは事前学習からかなりの評価知識を符号化する。
現在のポストトレーニング手法は、報酬信号を生成するために外部の監督に依存している。
EVOLMは、モデルの評価能力を明示的な識別的ルーブリックに構造化する手法である。
論文 参考訳(メタデータ) (2026-05-05T15:31:00Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。