論文の概要: Reliable to Expressive: A Curriculum for Rubric-Following Safety Judges
- arxiv url: http://arxiv.org/abs/2606.09165v1
- Date: Mon, 08 Jun 2026 08:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.821048
- Title: Reliable to Expressive: A Curriculum for Rubric-Following Safety Judges
- Title(参考訳): 表現力の信頼性:ゴム系追従安全判事のカリキュラム
- Authors: Yongtaek Lim, Hyeji Choi, Minwoo Kim,
- Abstract要約: 安全審査員は、進化する基準に対してモデルアウトプットを評価するためにますます配置される。
最近のメタ評価研究は、プロンプトとルーブリックの変動下では脆く保たれていることを示している。
本稿では,インスタンス条件の動的ルーブリックと,信頼性と表現性を備えたカリキュラムを組み合わせたトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 2.8523456804049885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Safety judges are increasingly deployed to evaluate model outputs against evolving criteria, yet recent meta-evaluation work shows they remain brittle under prompt and rubric variation, with false negative-rate swings of up to 0.24 reported for stylistic perturbations alone. We argue that safety judgment is fundamentally a rubric-following problem: a robust judge must apply the given evaluation criteria consistently across rubric formulations rather than memorize one specific template. We propose a training strategy that combines (i) instance-conditioned dynamic rubrics generated from prompt-response-label triples to expose the judge to the variability of evaluation criteria, and (ii) a reliable-to-expressive curriculum that begins with clean fixed-rubric supervision and progressively introduces noisier dynamic-rubric data. We evaluate on a single human-labeled set under three contrasting rubric prompts (HarmBench-style, ShieldGemma-style, and a domain-specific rubric). Our 12B curriculum judge achieves 94.12-94.88% accuracy across the three rubrics with a cross-rubric range of only 0.76, outperforming general-purpose LLMs, dedicated safety classifiers, and reasoning-oriented judges up to 30B in both peak accuracy and stability. An ablation shows that naively mixing dynamic rubrics into SFT increases cross rubric variance (1.44 -> 3.60); only the curriculum schedule recovers and improves on the fixed rubric baseline (variance 0.76).
- Abstract(参考訳): 安全審査員は、進化する基準に対してモデル出力を評価するためにますます配置されているが、最近のメタ評価では、急進的かつ粗悪な変動の下では不安定であり、スタイリスティックな摂動だけでは最大0.24の偽の負の速度の変動が報告されている。
頑健な判断者は、与えられた評価基準を1つの特定のテンプレートを記憶するのではなく、ルーリックな定式化に一貫して適用しなければならない。
組み合わせたトレーニング戦略を提案する。
一 迅速応答ラベル三重項から発生し、審査員を評価基準の変動性に晒すインスタンス条件のダイナミックルーブリック
(II) クリーンな固定ルーブリック監視から始まり、よりノイズの多い動的ルーブリックデータを段階的に導入する信頼と表現のカリキュラム。
我々は,3つの対照的なルーリックプロンプト(HarmBenchスタイル,ShieldGemmaスタイル,ドメイン固有のルーリック)の下で,1つのヒトラベルセットを評価する。
我々の12Bカリキュラムの審査員は、3つのルーブリックに対して94.12-94.88%の精度を達成し、その範囲はわずか0.76で、汎用LLM、専用安全分類器、および最大30Bまでの推論指向の判定をピーク精度と安定性の両方で達成した。
A blation is a naively mixed dynamic rubrics into SFT, increase cross rubric variance (1.44 -> 3.60), only the curriculum schedules and improves on the fixed rubric baseline (variance 0.76)。
関連論文リスト
- Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - TAME: Test-Time Adversarial Prompt Tuning via Mixture-of-Experts for Vision-Language Models [76.92890872338235]
大規模事前学習型ビジョンランゲージモデル(VLM)は、強いゼロショット一般化を示すが、知覚不能な逆方向の摂動に対して非常に脆弱である。
ダウンストリームタスク固有のリトレーニングを必要とせずに堅牢性を高めるため,新しいテストタイムディフェンスであるTAMEを提案する。
論文 参考訳(メタデータ) (2026-05-17T18:07:08Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses [5.396994583933599]
提案するPEEM(Prompt Engineering Evaluation Metrics)は,プロンプトと応答を統一的に評価するためのフレームワークである。
PEEMは9つの軸を持つ構造化ルーブリックを定義している。3つのプロンプト基準(明瞭さ/構造、言語的品質、公正)と6つの応答基準(正確さ、客観性、妥当性、明確さ、簡潔さ)。
論文 参考訳(メタデータ) (2026-03-11T07:00:59Z) - Autorubric: A Unified Framework for Rubric-Based LLM Evaluation [34.429649156970015]
大規模言語モデル(LLM)を評価するための統一フレームワークを提案する。
この論文で提案されているオープンソースのPythonフレームワークであるAutorubricで、それぞれのテクニックが実現されている。
Autorubricは、重み付き二分、順序、および名目基準をサポートしており、多数派、重み付き、一対一、無投票のアグリゲーションによるシングルジャッジとマルチジャッジのアンサンブルの評価である。
論文 参考訳(メタデータ) (2026-02-13T02:26:30Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。