論文の概要: Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling
- arxiv url: http://arxiv.org/abs/2606.07040v2
- Date: Thu, 11 Jun 2026 20:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.406679
- Title: Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling
- Title(参考訳): Beyond Rubrics: Reward ModelingのためのExploration-Guided Evaluationスキル
- Authors: Xing Yue, Linjuan Wu, Daoxin Zhang, Yongliang Shen, Weiming Lu,
- Abstract要約: Eval-Skillは、報酬モデリングのための再利用可能な評価スキルを合成する探索誘導手法である。
複数のRMベンチマークを通じて、Eval-Skillはさまざまな裁判官のバックボーンを継続的に改善する。
- 参考スコア(独自算出の注目度): 23.00474352761324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended reward modeling requires judges that can follow subtle, domain-specific preferences when verifiable answers are unavailable. Existing rubric-based methods often address this by generating criteria online for each query, but the extra generation step can add inference overhead and produce rigid or misaligned guidance. We introduce Eval-Skill, an exploration-guided method that synthesizes reusable evaluation skills for reward modeling and reframes reward guidance as context evolution rather than parameter training or per-query rubric generation. Using only 100 cases per domain for skill evolution, Eval-Skill synthesizes reusable domain-level evaluation skills through two progressive stages, workflow generation followed by principle generation, with exploration and selection interleaved across both stages. Once generated, a skill is directly injected into the judge context. Across multiple RM benchmarks, Eval-Skill consistently improves diverse judge backbones; on RewardBench 2, it yields significant gains over vanilla judging for each main backbone (+13.44% for Qwen3-8B, and 18.51% for DeepSeek-V4-Flash). Further analyses of evolution-time scaling, generalizability, and transferability show that compact evaluation skills offer an efficient new paradigm for LLM-based evaluation. Code is available at https://github.com/xing-stellus-yue/Eval-Skill.
- Abstract(参考訳): オープンエンド報酬モデリングは、検証可能な回答が利用できない場合に、微妙でドメイン固有の好みに従うことができる裁判官を必要とする。
既存のルーブリックベースのメソッドでは、クエリ毎にオンラインの基準を生成することで、この問題に対処することが多い。
Eval-Skillは、報酬モデリングのための再利用可能な評価スキルを合成し、報酬誘導をパラメータトレーニングやクエリごとのルーリック生成よりもコンテキスト進化として利用する探索誘導手法である。
Eval-Skillは、スキル進化のためにドメインあたり100ケースしか使用せず、再利用可能なドメインレベルの評価スキルを2つのプログレッシブステージを通じて合成する。
一度生成されると、スキルが判断コンテキストに直接注入される。
RewardBench 2では、メインのバックボーンごとにバニラ(Qwen3-8Bでは+13.44%、DeepSeek-V4-Flashでは18.51%)を判定する。
進化時間スケーリング、一般化可能性、伝達可能性のさらなる分析により、コンパクトな評価スキルがLLMに基づく評価のための効率的な新しいパラダイムを提供することが示された。
コードはhttps://github.com/xing-stellus-yue/Eval-Skill.comで公開されている。
関連論文リスト
- Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill [36.002795736704]
本稿では、再利用可能なリワード評価スキルの実行として報酬モデリングを再構築する統合フレームワークであるスキル・リワードモデル(Skill-RM)を提案する。
報酬計算を構造化されたエージェントタスクとして扱うことで、Skill-RMは異種資源をオーケストレーションするための一貫したインターフェースを提供する。
以上の結果から,Skill-RMは報酬モデリングのための統一的なソリューションを提供するだけでなく,エビデンスを戦略的かつ動的にオーケストレーションすることで,優れたパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2026-06-02T17:56:57Z) - RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges [2.184775414778289]
大規模言語モデル(LLM)が互いに検証可能なタスクを生成することによって競合する新しい評価フレームワークであるSKATEを紹介する。
私たちのコアは、タスクセットとソルバの両方のモデルとしての評価をゲームとして扱うことです。
TrueSkillベースのランキングシステムを用いて、6つのLCMを評価し、(1)より弱いモデルでは、より強力なモデルを確実に識別し、スコア付けすることができ、(2)LSMベースのシステムは、自己参照の振る舞いを可能とし、自己の能力に合わせた質問を生成し、(3)SKATEは自動的に、きめ細かな表面を呈する。
論文 参考訳(メタデータ) (2025-08-08T08:16:40Z) - Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification [31.463529258956452]
本稿では,アンサンブルのプロンプトと逆検証を用いた統一プロセス報酬モデル(PRM)をトレーニングするための新しいフレームワークであるAURORAを提案する。
まず、さまざまなプロンプト戦略とアンサンブルメソッドを使用して、自動化されたアノテーションとプロセスの評価を行います。
フレームワークのパフォーマンスを評価するために、UniversalBenchを導入することで、既存のProcessBenchベンチマークを超えて拡張します。
論文 参考訳(メタデータ) (2025-02-17T07:41:27Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。