論文の概要: PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment
- arxiv url: http://arxiv.org/abs/2606.09348v1
- Date: Mon, 08 Jun 2026 11:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.938548
- Title: PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment
- Title(参考訳): PBSD: 長期クレジット割り当てのためのベイズ独自の自己蒸留
- Authors: Yang Tian, Rui Wang, Xumeng Wen, Junjie Li, Shizhao Sun, Lei Song, Jiang Bian, Bo Zhao,
- Abstract要約: ロングホライゾンのエージェントタスクは、結果ベース強化学習の基本的なクレジット割り当て課題となる。
PBSD (Privileged Bayesian Self-Distillation) はベイズが校正した自己蒸留法である。
- 参考スコア(独自算出の注目度): 35.978805768172656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.
- Abstract(参考訳): 軌道レベルの報酬は最終的な正当性を検証するが、中間的推論ステップやツールの相互作用が結果に寄与する限られたガイダンスを提供する。
この困難さは多ターン検索エージェントで特に顕著であり、軌道を成功させるには誤った行動が伴う可能性があるし、軌道の失敗には証拠収集のステップが伴う可能性がある。
PBSD (Privileged Bayesian Self-Distillation) はベイズが校正した自己蒸留法である。
PBSDは、検証された回答の後~前確率比を通じて軌道品質を測定し、ベイズの規則を適用して、この難しい解答側比を標準学生モデルと特権回答条件付き教師モデルの間の抽出可能な確率比に変換する。
このベイズ証拠の自己回帰的分解は、各中間旋回が証明された結果を支持するか、または損なうかを識別するターンレベル信号を生成する。
その結果、PBSDは、厳格でエレガントなリウェイト化スキームを提供し、粗末な結果の監督をベイズ校正されたターンレベルのクレジット信号に変換すると同時に、標準ポリシーの最適化と完全に互換性を維持している。
実験により、PBSDはドメイン内およびドメイン外の両方のパフォーマンスを継続的に向上し、短文トレーニングから長文推論への知識の伝達を効果的に行い、そのきめ細かいクレジット割り当て機構がより効果的なポリシー学習を促進し、一般化を改善することが示唆された。
関連論文リスト
- VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning [11.926589875842359]
大言語モデル(LLM)に基づく検索エージェントは,知識集約型タスクの性能を大幅に向上させた。
既存の手法は、長期信用割り当てにおいて重要な課題に直面する。
累積探索の逐次過程として探索軌道を再構成するPivot-Based Credit Assignment (PiCA)を提案する。
論文 参考訳(メタデータ) (2026-05-10T03:21:47Z) - Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers [26.97849381770806]
自己誘導型アウトカム電位は、最終回答のセマンティッククラスタを、ポテンシャルに基づくターンレベルのクレジット割り当てのための潜在的な将来の結果状態として扱う。
我々は,このフレームワークを形式化し,監督対象のゴールド・アンサー・リミットを特徴付けるとともに,SIOPが検証自由な結果レベルベースラインよりも平均性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-05-06T14:38:48Z) - Reducing Credit Assignment Variance via Counterfactual Reasoning Paths [11.514388061694268]
大規模言語モデル(LLM)を用いた多段階推論のための強化学習は、しばしばスパース端末報酬に依存する。
本稿では,複数の推論軌跡を同一の入力でサンプリングする,対実的比較に基づく信用割当フレームワークを提案する。
我々は、スパース端末報酬をステップセンシティブな学習信号に変換する暗黙のプロセスレベル優位推定器を構築する。
論文 参考訳(メタデータ) (2026-04-20T13:33:54Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。