論文の概要: Safety is Contextual, LLM-Judges Are Not: Navigating the Rigid Priors of Evaluators
- arxiv url: http://arxiv.org/abs/2606.07874v1
- Date: Fri, 05 Jun 2026 22:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.498836
- Title: Safety is Contextual, LLM-Judges Are Not: Navigating the Rigid Priors of Evaluators
- Title(参考訳): LLM-Judges is not: Navigating the Rigid Priors of Evaluators
- Authors: Anissa Alloula, Federico Licini, Ava Batchkala, Seraphina Goldfarb-Tarrant,
- Abstract要約: LLMs-as-judgesの特性について検討する。
我々は,多くのジェネラリストLLMの安全性判定能力と,安全性に特有な判断能力を評価する。
LLM-judgesは新たな情報から学習できるが、文脈や安全性の定義に矛盾がある場合、評価を調整することは不可能である。
- 参考スコア(独自算出の注目度): 4.271129497101414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs-as-judges are the only way to evaluate safety at scale. Despite their importance, LLM-judges themselves are rarely evaluated beyond human agreement in simple, static benchmarks. We therefore investigate two under-explored but crucial properties of LLMs-as-judges: their susceptibility to relying on in context-information, and their steerability to differing safety definitions, which may not align with their internal safety priors. We evaluate the safety judging abilities of many generalist LLMs and safety-specific judges, and investigate the impact of task demonstrations, novel in-context information, and changing safety definitions. We find that while LLM-judges can learn from new information, they are broadly unlikely to adjust their evaluations if the context or safety definition contradicts their prior.
- Abstract(参考訳): LLMs-as-judgesは大規模な安全性を評価する唯一の方法である。
その重要性にもかかわらず、LSM-judge自体が単純で静的なベンチマークで人間の合意を超えて評価されることは滅多にない。
そこで我々は,LLMs-as-judgesの2つの未調査かつ重要な特性について検討した。
我々は,多くのジェネラリストLLMの安全性判断能力を評価し,タスクのデモンストレーション,新しいインコンテキスト情報,安全性定義の変更の影響について検討する。
LLM-judgesは新たな情報から学習できるが、文脈や安全性の定義に矛盾がある場合、評価を調整することは不可能である。
関連論文リスト
- Evaluating Metrics for Safety with LLM-as-Judges [1.93892819796757]
本稿では、多くの自然言語処理タスクから決定論的評価を得ることはできないが、重み付けされたメトリクスのバスケットを採用することで、評価におけるエラーのリスクを低減することができると主張している。
論文 参考訳(メタデータ) (2025-12-17T17:24:49Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models [31.157709414580935]
大規模言語モデル(LLM)エージェントのユーザ固有の安全性を評価するベンチマークであるU-SafeBenchを紹介する。
LLMを広く利用している20種類のLCMを評価した結果,ユーザ固有の安全基準を考慮すると,現在のLCMは安全に動作しないことがわかった。
本稿では,チェーン・オブ・思想に基づく簡単な治療法を提案し,ユーザ固有の安全性向上に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-20T22:58:44Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。