論文の概要: TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles
- arxiv url: http://arxiv.org/abs/2606.07520v1
- Date: Sun, 19 Apr 2026 06:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.66892
- Title: TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles
- Title(参考訳): TinyJudge: ライトウェイトスペシャリストのアンサンブルによる不可解な制約アライメント
- Authors: Yirong Zeng, Yufei Liu, Xiao Ding, Yutai Hou, Yuxian Wang, Wu Ning, Haonan Song, Dandan Tu, Qixun Zhang, Yuxiang He, Bibo Cai, Ting Liu,
- Abstract要約: ソフト制約に対する報酬を提供するために,特殊小言語モデルのアンサンブルを利用するフレームワークであるTinyJudgeを提案する。
TinyJudgeは、平均パフォーマンスで$sim10%$、報酬精度で12%$でベースラインを上回っている。
我々の研究は、LLMを検証不能な人間の指示と整合させるスケーラブルで堅牢な経路を提供する。
- 参考スコア(独自算出の注目度): 28.896629356988736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction Following (IF) is a core capability of LLMs, requiring strict adherence to diverse constraints, ranging from verifiable ones (e.g., output length) to unverifiable ones (e.g., tone). Reinforcement learning with verifiable rewards has emerged as a paradigm for IF tasks, leveraging LLM-as-a-judge to assess unverifiable constraints. However, we empirically find that this approach remains a significant bottleneck, suffering from severe reward hacking and higher computational overhead. In this work, we first analyze the generalization capabilities of unverifiable constraints and discover that specific constraints exhibit distinct, high-generalization patterns. Motivated by this, we propose TinyJudge, a framework that employs an ensemble of specialized tiny language models ($\sim0.6B$) to provide rewards for soft constraints. By distilling expertise from frontier models into these tiny models, it achieves high-precision, lightweight evaluation. Extensive evaluations across five benchmarks demonstrate that TinyJudge outperforms the baselines by $\sim10\%$ in average performance and $12\%$ in reward precision. Crucially, it also achieves a $3\times$ speedup in total training time. Our work provides a scalable and robust path for aligning LLMs with unverifiable human instructions.
- Abstract(参考訳): 命令追従(IF)はLLMの中核的な能力であり、検証可能なもの(例えば出力長)から検証できないもの(例えばトーン)まで、様々な制約に厳格に従わなければならない。
検証可能な報酬を伴う強化学習は、検証不可能な制約を評価するためにLLM-as-a-judgeを活用するIFタスクのパラダイムとして登場した。
しかし、我々は、厳格な報酬のハッキングと高い計算オーバーヘッドに悩まされ、このアプローチが重大なボトルネックであり続けていることを実証的に見出した。
本研究では、まず、検証不可能な制約の一般化能力を解析し、特定の制約が異なる高一般化パターンを示すことを明らかにする。
このことに動機づけられたTinyJudgeは、ソフト制約に対する報酬を提供するために、特殊な小さな言語モデル(\sim0.6B$)のアンサンブルを利用するフレームワークである。
フロンティアモデルからこれらの小さなモデルに専門知識を蒸留することにより、高精度で軽量な評価を実現する。
5つのベンチマークの大規模な評価によると、TinyJudgeは平均パフォーマンスで$\sim10\%、報酬精度で$12\%でベースラインを上回っている。
重要な点として、トレーニング時間の合計で3ドル(約3,300円)のスピードアップも達成している。
我々の研究は、LLMを検証不能な人間の指示と整合させるスケーラブルで堅牢な経路を提供する。
関連論文リスト
- Theoretical Limits of Language Model Alignment [9.45142272392467]
言語モデル(LM)アライメントは、ベースモデルの能力を保ちながら、人間の好みを反映するモデル出力を改善する。
最も一般的なアライメントアプローチは、(i)強化学習であり、KL分割制約の下で期待される報酬を最大化する。
固定KL分割予算に対する最大期待報酬利得を導出することにより、KL正規化アライメントの情報理論的限界を特徴づける。
論文 参考訳(メタデータ) (2026-05-08T01:32:22Z) - RVPO: Risk-Sensitive Alignment via Variance Regularization [13.192921543523283]
本稿では, 利便集約時のリワード間分散をペナルティ化するリスクセンシティブなフレームワークであるReward-Variance Policy Optimization (RVPO)を提案する。
我々はTaylor拡張を通して、LogSumExp(SoftMin)オペレータがスムーズな分散ペナルティとして効果的に働くことを示す。
モデルがより簡単な目的を活かすために難しい制約を無視しないようにすることで、RVPOはHealthBenchの全体的なスコアを改善する。
論文 参考訳(メタデータ) (2026-05-07T06:43:05Z) - Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - What's the Price of Monotonicity? A Multi-Dataset Benchmark of Monotone-Constrained Gradient Boosting for Credit PD [0.0]
金融機関は、信用リスクのための機械学習モデルを展開する際に、予測精度と解釈可能性のトレードオフに直面している。
単調性制約はモデルの振る舞いをドメイン知識と整合させるが、その性能コストは十分に定量化されていない。
本稿では,5つの公開データセットと3つのライブラリにまたがって,既定の信用確率に対するモノトーン制約と非拘束勾配向上モデルのベンチマークを行う。
論文 参考訳(メタデータ) (2025-12-14T22:18:05Z) - IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation [87.38454788767545]
本稿では,大規模言語モデルにおける命令追従の評価モデルであるIF-CRITICを提案する。
IF-CRITICが提供するスケーラブルな報酬信号により、LLMは命令追従最適化においてかなりの性能向上を達成することができる。
論文 参考訳(メタデータ) (2025-11-02T17:06:49Z) - Large-Scale Constraint Generation - Can LLMs Parse Hundreds of Constraints? [20.47853693801739]
大規模制約生成(LSCG: Large-Scale Constraint Generation)は、大規模言語モデルが大規模できめ細かい制約のリストを解析できるかどうかを評価する新しい問題である。
Words Checkerでは、モデル特性(例えば、サイズ、家族)とステアリング技術(例えば、Simple Prompt、Chain of Thought、Best of N)がパフォーマンスに与える影響を評価する。
制約の元のリストを小さなサブセットにパースし、LLMが関連する制約にフォーカスするのに役立つ、小さくて専用のモデルであるFoCusNetを提案する。
論文 参考訳(メタデータ) (2025-09-28T21:55:53Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。