論文の概要: Rubric-Guided Self-Distillation: Post-Training Without Rubric Verifiers
- arxiv url: http://arxiv.org/abs/2606.12507v1
- Date: Wed, 10 Jun 2026 17:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.379283
- Title: Rubric-Guided Self-Distillation: Post-Training Without Rubric Verifiers
- Title(参考訳): ルーブリックガイドによる自己蒸留--ルーブリック検証なしでの試験-
- Authors: MohammadHossein Rezaei, Anas Mahmoud, Zihao Wang, Utkarsh Tyagi, Advait Gosai, Razvan-Gabriel Dumitru, Aakash Sabharwal, Bing Liu, Yunzhong He,
- Abstract要約: 本研究では,無条件学生の教師として,ルーリックに条件付けされた基本方針が機能する検証不要な学習方法を提案する。
Qwen-2.5 (3B, 7B) と Qwen3-Thinking (4B, 8B) の医療分野におけるモデル全体で、RGSD は審査ベースの RuricO に匹敵する満足度を達成している。
- 参考スコア(独自算出の注目度): 25.040339775169883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubrics have emerged as an alternative to RLVR in open-ended domains where a single ground-truth final answer is not available. Existing rubric-based training methods rely on an LLM verifier that scores each rollout against rubrics. This introduces substantial training-time overhead, exposes optimization to verifier-specific biases, and reduces rubric feedback to a sparse end-of-trajectory signal. We propose Rubric-Guided Self-Distillation (RGSD), a verifier-free training method in which the base policy, conditioned on the rubric, serves as the teacher for the unconditioned student. RGSD distills the rubric-conditioned teacher distribution into the student token-by-token, replacing sparse trajectory-level rewards with dense per-token learning signals and removing the LLM judge from the training loop entirely. Across Qwen-2.5 (3B, 7B) and Qwen3-Thinking (4B, 8B) models on medical and science domains, RGSD achieves rubric satisfaction comparable to judge-based GRPO while using one on-policy rollout per prompt and no training-time verifier calls. Ablations show that raw rubrics provide a stronger teacher enrichment signal than self-generated reference responses, while a stronger GRPO judge can outperform RGSD in some settings, positioning RGSD as a complementary verifier-free alternative when verifier cost or reliability is the bottleneck.
- Abstract(参考訳): ルーブリックは、単一の接地的最終回答が得られないオープンエンドドメインにおけるRLVRの代替として登場した。
既存のルーリックベースのトレーニング方法は、ルーリックに対して各ロールアウトをスコアするLLM検証器に依存している。
これは、かなりのトレーニング時間オーバーヘッドを導入し、検証器固有のバイアスに最適化を公開し、粗い軌跡信号へのルーブリックフィードバックを低減します。
本研究では,無条件学生の教師として,ルーブリック指導型自己蒸留法(RGSD)を提案する。
RGSDは、ルーリック条件の教師分布を学生トークン単位に蒸留し、スパース軌跡レベルの報酬を密集した学習信号に置き換え、LLM審査員をトレーニングループから完全に排除する。
Qwen-2.5 (3B, 7B) および Qwen3-Thinking (4B, 8B) の医療・科学分野におけるモデル全体で、RGSDは1プロンプトにつき1回のオン・ポリティクス・ロールアウトとトレーニング・タイム・検証コールを使用せずに、審査ベースのGRPOに匹敵するルリック満足度を達成している。
アブレーションにより、生のルーリックは自己生成基準応答よりも強力な教師エンリッチメント信号を提供するのに対し、強いGRPO判事は一部の設定ではRGSDを上回り、検証コストや信頼性がボトルネックとなる場合、RGSDを補完的な検証対象のない代替品として位置づける。
関連論文リスト
- QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards [68.15832368034815]
クエリとルーブリックを共同設計するフレームワークを提案する。
QUBRICはSFTベースラインよりもアリーナハードで+5.5ポイントのゲインを達成している。
論文 参考訳(メタデータ) (2026-06-02T17:53:04Z) - ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents [48.80766702702854]
LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、群内の優位性はゼロとなり、勾配は得られない。
ARBOR(Adaptive Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
論文 参考訳(メタデータ) (2026-06-02T06:58:54Z) - CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO [9.443660785229719]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論を改善するために広く用いられている。
本研究は,GRPO型RLVRに対する無回答自己蒸留法であるCASTを提案する。
論文 参考訳(メタデータ) (2026-05-29T13:21:30Z) - OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models [12.17078443900398]
RLVR(Reinforcement Learning with Verifiable Rewards)の代替として,オンライン自己蒸留(On-Policy Self-Distillation, OPSD)が最近登場した。
考察可能な数学的推論では、OPSDは補正機構よりも圧縮機構として最も確実に振る舞う。
論文 参考訳(メタデータ) (2026-05-07T13:04:34Z) - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。