論文の概要: Support Vector Rubrics: Closing the Gap Between Self-Generated and Human Rubrics
- arxiv url: http://arxiv.org/abs/2606.08077v1
- Date: Sat, 06 Jun 2026 09:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.762539
- Title: Support Vector Rubrics: Closing the Gap Between Self-Generated and Human Rubrics
- Title(参考訳): サポートベクター・ルーブリック:自己生成とヒト・ルーブリックのギャップを埋める
- Authors: Mengyuan Sun, Yu Li, Zhuohao Yu, Shikun Zhang, Wei Ye,
- Abstract要約: SVR(Support Vectors)は,好みデータに対する最大境界学習としてルーリックをリキャストするフレームワークである。
SVRは、嗜好対から銀行へ対照的な特徴をマイニングし、グローバルウェイトと共に、迅速な条件付きセレクタを学習し、サポートペアの選択とハードネガティブの逆探索を通じて、銀行を反復的に洗練する。
ベンチでは、SVRは24.1点から0.3点までの人間の参照とのギャップを狭め、強い自己資本主義を上回り、学習した銀行は再訓練せずに審査員間で移動する。
- 参考スコア(独自算出の注目度): 33.21526869949403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubric-based evaluation is a promising paradigm for judging large language model (LLM) outputs, yet self-generated rubrics lag human-annotated criteria on hard instances. We argue this discriminative gap reflects an objective mismatch: self-generated rubrics describe good responses, whereas effective criteria must discriminate between close candidates. To close this gap, we introduce SVR (Support Vector Rubrics), a framework that recasts rubric construction as max-margin boundary learning over preference data. SVR mines contrastive features from preference pairs into a rubric bank, learns a prompt-conditioned selector together with global rubric weights, and iteratively refines the bank through support-pair selection and adversarial probing of hard negatives. At inference, given only the prompt, SVR retrieves the top-rubrics from the bank and scores responses. On RubricBench, SVR narrows the gap to human reference rubrics from 24.1 to 0.3 points and outperforms strong self-rubric and judge baselines, and the learned bank transfers across judges without retraining. On RewardBench 1&2, and RM-Bench, it remains competitive with dedicated reward models, demonstrating broader reward modeling capability. Overall, boundary-defining rubrics offer a principled route to closing the discriminative gap in LLM evaluation.
- Abstract(参考訳): Rubricベースの評価は,大規模言語モデル(LLM)のアウトプットを判断する上で,有望なパラダイムである。
我々は、この差別的ギャップが客観的なミスマッチを反映していると主張している。
このギャップを埋めるために、我々はSVR(Support Vector Rubrics)を紹介します。
SVRは、好みのペアから対照的な特徴をルーリックバンクにマイニングし、グローバルルーリックウェイトと共にプロンプト条件のセレクタを学習し、サポートペアの選択とハードネガティブの逆探索を通じて銀行を反復的に洗練する。
推測では、プロンプトのみを与えられたSVRは、銀行からトップルーブリックを取得し、レスポンスをスコアする。
ルーブリックベンチでは、SVRは人間の基準ルーブリックとのギャップを24.1点から0.3点に狭め、強い自己反動と判断基準を上回り、学習された銀行は再訓練なしで審査員間で移動する。
RewardBench 1&2とRM-Benchでは、より広範な報酬モデリング能力を示す専用報酬モデルとの競争が続いている。
総じて、境界定義ルブリックはLLM評価における差別的ギャップを閉じるための原則的経路を提供する。
関連論文リスト
- ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents [48.80766702702854]
LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、群内の優位性はゼロとなり、勾配は得られない。
ARBOR(Adaptive Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
論文 参考訳(メタデータ) (2026-06-02T06:58:54Z) - CriterAlign: Criterion-Centric Rationale Alignment for Code Preference Judging [95.02210956333374]
本稿では,一対の選好評価にルーブリックに基づく判断を適応させる基準中心のフレームワークを提案する。
BigCodeRewardでは、CriterAlignはQwen2.5-VL-32Bモノリシック判事を60.4%から66.3%に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:59:19Z) - GRASP: Deterministic argument ranking in interaction graphs [65.66879897437157]
全体的判断はモデル間不一致に悩まされていることを示す。
この不安定性は、議論の複雑な相互作用構造を1つの不透明なスコアに崩壊させることから生じる。
安定な局所的相互作用判断をグローバルなランキングに集約する決定論的なフレームワークであるGRASPを提案する。
論文 参考訳(メタデータ) (2026-05-18T21:49:02Z) - Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria [17.272139541614383]
Auto-Rubric as Reward (ARR)は、暗黙の重み付け最適化から明示的な基準ベースの分解まで、報酬モデリングを再構成するフレームワークである。
ARRはVLMの選好知識をプロンプト固有の勾配として外部化し、全体論的意図を独立に検証可能な品質次元に変換する。
ARR-RPOは、テキスト・ツー・イメージ生成と画像編集のベンチマークにおいて、ペアワイズ報酬モデルとVLM判事より優れている。
論文 参考訳(メタデータ) (2026-05-08T18:05:27Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks [17.117706938140078]
本稿では,分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。
RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を広げ、応答間の分離を鋭くする。
評価とトレーニングの両方で、大きく、一貫した利益をもたらします。
論文 参考訳(メタデータ) (2026-02-04T23:16:09Z) - BoRP: Bootstrapped Regression Probing for Scalable and Human-Aligned LLM Evaluation [13.561789180344533]
高忠実度満足度評価のためのスケーラブルなフレームワークであるBoRPを紹介する。
産業データセットの実験は、BoRPが生成ベースラインを著しく上回っていることを示している。
BoRPは推論コストを桁違いに削減し、CUPEDによるフルスケールの監視と高感度なA/Bテストを可能にする。
論文 参考訳(メタデータ) (2026-01-26T08:20:02Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。