論文の概要: ComplexConstraints and Beyond: Expert Rubrics for RLVR
- arxiv url: http://arxiv.org/abs/2606.09118v1
- Date: Mon, 08 Jun 2026 07:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.786216
- Title: ComplexConstraints and Beyond: Expert Rubrics for RLVR
- Title(参考訳): ComplexConstraintsとBeyond:RLVRのエキスパートルーブリック
- Authors: Sushant Mehta, Liudas Panavas, Edwin Chen,
- Abstract要約: 代替パラダイムとして,専門家によるルーリック評価を体系的に分析する。
われわれはまず,高品質なルーブリックを構築するための5つの設計原則を述べる。
これらのルーリックは, 優れた評価機器であるだけでなく, 極めて効果的な訓練信号であることを示す。
- 参考スコア(独自算出の注目度): 1.173565897471208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM capabilities advance rapidly, the evaluation methods used to assess them increasingly lag behind. Traditional benchmarks relied on programmatic verification of narrow, surface-level constraints, but real-world instruction following and agentic tasks demand assessment of nuanced, context-dependent behaviors that resist simple scripted checks. We present a systematic analysis of expert-curated rubric-based evaluation as an alternative paradigm, drawing on empirical evidence from two domains: complex instruction following and enterprise agentic tasks. We first articulate five design principles for constructing high-quality rubrics, including Maximum Viable Atomicity, intent-aware criterion design, and iterative LLM-judge calibration. To validate these principles, we introduce ComplexConstraints, a new expert-curated instruction-following dataset in which each prompt is paired with 10-40 atomic rubric criteria. We demonstrate that these expert rubrics are not only better evaluation instruments but also highly effective training signals: training on approximately 1,000 ComplexConstraints examples yields +15.5% improvement for a 4B-parameter model and +12.2% for a 235B-parameter model on instruction following, while single-epoch RL training on a rubric-graded enterprise environment produces gains that transfer to out-of-distribution benchmarks the model was never trained on (+4.5% BFCL, +7.4% Tau2-Bench, +6.8% Tool-Decathlon). Our findings establish that expert-authored rubrics improve both the measurement and the development of frontier LLM capabilities, serving as effective evaluation and RL training signals.
- Abstract(参考訳): LLMの能力が急速に向上するにつれて、評価手法は徐々に遅れていきます。
従来のベンチマークでは、狭い表面レベルの制約のプログラムによる検証に頼っていたが、実際の命令やエージェント的なタスクは、単純なスクリプトチェックに抵抗するニュアンスでコンテキストに依存した振る舞いを要求していた。
本稿では,2つの領域から得られた経験的証拠,すなわち複雑な指示に従うこと,および企業エージェント的タスクを参考に,専門家によるルーリック評価を代替パラダイムとして体系的に分析する。
まず, 最大可視光度, 意図認識基準設計, 繰り返しLDM-judgeキャリブレーションなど, 高品質なルーリックを構築するための5つの設計原則を述べる。
これらの原則を検証するために、我々は、プロンプトを10~40原子のルックス基準と組み合わせた、専門家による新しい命令追従データセットであるComplexConstraintsを紹介した。
約1,000のコンプレックス制約によるトレーニングでは,4Bパラメータモデルが+15.5%,235Bパラメータモデルが+12.2%,ルーリックグレードの企業環境でのシングルエポックRLトレーニングでは,トレーニング対象外ベンチマーク(+4.5%BFCL,+7.4%Tau2-Bench,+6.8%Tool-Decathlon)が得られた。
以上の結果から,専門家が認可したルーリックは,フロンティアLSM能力の測定と開発を両立させ,効果的な評価とRL訓練信号として機能することが確認された。
関連論文リスト
- Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning [1.517713730645682]
我々は,構造的かつ多条件の報酬に対してポリシを最適化するフレームワークとして,経験的地下強化学習(RL: Emphrubric-grounded reinforcement learning)を定式化する。
我々は、約10万の科学・技術文書からなるOSTI(Office of Scientific and Technical Information)由来のコーパスから潤滑剤を抽出して、この枠組みをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-08T17:48:58Z) - Agentick: A Unified Benchmark for General Sequential Decision-Making Agents [30.028388632526745]
Agentickはシーケンシャルな意思決定エージェントのベンチマークである。
プロシージャで生成されたタスクは6つの機能カテゴリ、難易度レベル4、観察モード5で37になる。
27のコンフィグレーションと90,000以上のエピソードにまたがる評価では、単一のアプローチが支配的でないことが示されている。
論文 参考訳(メタデータ) (2026-05-07T19:12:03Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。