論文の概要: SLMJury: Can Small Language Models Judge as Well as Large Ones?
- arxiv url: http://arxiv.org/abs/2606.07810v1
- Date: Fri, 05 Jun 2026 19:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.460547
- Title: SLMJury: Can Small Language Models Judge as Well as Large Ones?
- Title(参考訳): SLMJury: 小さい言語モデルは大きなもののように判断できますか?
- Authors: Anish Laddha, Nitesh Pradhan, Gaurav Srivastava,
- Abstract要約: SLMJury(Small Language Model (SLM) 評価フレームワーク)を2つのパラダイムの審査対象として紹介する。
我々は10のベンチマークで4つのモデルファミリーから16のSLM判定値(0.6B-14Bパラメータ)をベンチマークした。
信頼性の高い自動評価は大きなプロプライエタリなモデルを必要としないが、単一のSLMが支配的ではない。
- 参考スコア(独自算出の注目度): 1.5990700377571574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used as judges for evaluating model outputs, but their high cost, latency, and opacity limit scalability. We introduce SLMJury, a framework for evaluating small language models (SLMs) as judges across two paradigms: closed-ended binary correctness and open-ended quality scoring. We benchmark 16 SLM judges (0.6B-14B parameters) from four model families across ten benchmarks: eight closed-ended tasks spanning mathematical, scientific, and general reasoning (N=64,824 judgments per configuration), plus SummEval and MT-Bench for summarization and conversational scoring. We formalize judging as a budget-conditioned function and study five dimensions. Four findings emerge. (1) The overthinking effect is domain-dependent: for most judges quick 10-token verdicts match or beat extended reasoning on mathematical judging (by 2-7% where they help), while reasoning wins on general tasks by up to 23%. (2) Domain generalization separates model families, with math-to-general accuracy gaps ranging from under 10% to nearly 40%. (3) Closed-ended and open-ended judging draw on different capabilities: the best binary judge (Phi-4) drops to rank 9 on MT-Bench, while reasoning-trained models invert this ordering. (4) Under the Reflect-Critique-Refine (RCR) debate protocol, multi-agent debate degrades accuracy across all tested configurations, whereas the top judges resist six adversarial personas with <=0.55% variance. Reliable automated evaluation does not require large proprietary models, yet no single SLM dominates. The leaderboard is available at https://anishh15.github.io/SLMJury/, and our framework code and pip package are publicly available at https://github.com/anishh15/SLMJury and https://pypi.org/project/slmjury/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデル出力を評価するために広く使用されるが、その高コスト、レイテンシ、不透明性はスケーラビリティを制限する。
SLMJury(Small Language Model (SLM) 評価フレームワーク)は,2つのパラダイム – 閉じた二項正当性とオープンな品質スコアリング – を審査対象として導入する。
数学,科学,一般的な推論(N=64,824の判定)にまたがる8つのクローズドエンドタスク(N=64,824の判定)と、要約と会話のためのSummEvalとMT-Benchの4つのモデルファミリーから16のSLM判定値(0.6B-14Bのパラメータ)をベンチマークした。
予算条件付き関数として判断を定式化し、5次元の研究を行う。
4つの発見がある。
1) 過剰思考効果は領域依存的であり, 数学的判断(助力所で2~7%)で10件の評定が一致したり, 上回ったり, 上回ったり, 上回ったり, 上回ったりするが, 一般のタスクでは最大23%の勝率を示した。
2) 領域一般化はモデルファミリを分離し, 数学と一般の精度のギャップは10%未満から40%近くである。
ベストバイナリ・ジャッジ(Phi-4)は、MT-Benchでランク9に低下し、推論訓練されたモデルは、この順序を逆転する。
(4)Reflection-Critique-Refine(RCR)の議論プロトコルでは、マルチエージェントの議論は全てのテスト構成で精度を低下させ、上位の審査員は6人の対人格に<=0.55%のばらつきで抵抗する。
信頼性の高い自動評価は大きなプロプライエタリなモデルを必要としないが、単一のSLMが支配的ではない。
リーダボードはhttps://anishh15.github.io/SLMJury/で、フレームワークコードとpipパッケージはhttps://github.com/anishh15/SLMJuryとhttps://pypi.org/project/slmjury/で公開されています。
関連論文リスト
- Nine Judges, Two Effective Votes: Correlated Errors Undermine LLM Evaluation Panels [0.0]
LLM-as-a-judgeパネルは複数のモデルからの投票を集計する。
私たちは、その信頼性が独立投票の理想にどの程度劣るかを定量化します。
論文 参考訳(メタデータ) (2026-05-28T11:48:17Z) - Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。