論文の概要: Keep Policy Gradient in Charge: Sibling-Guided Credit Distillation for Long-Horizon Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2606.12634v1
- Date: Wed, 10 Jun 2026 19:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.434922
- Title: Keep Policy Gradient in Charge: Sibling-Guided Credit Distillation for Long-Horizon Tool-Use Agents
- Title(参考訳): 長期ツール使用エージェントの兄弟誘導型クレジット蒸留
- Authors: Tianyu Ding, Jianhong Xin, Juan Pablo De la Cruz Weinstein,
- Abstract要約: 自己蒸留は、政策のロールアウトや特権教師を再利用することで、より密集的なシグナルを約束する。
しかし、トークンレベルの直接蒸留は、ツールの使用を静かに破壊できることを示す。
SGCD(Singing-Guided Credit Distillation)を導入する。
- 参考スコア(独自算出の注目度): 11.997694190254974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon tool-use reinforcement learning can learn from outcome verification, but its trajectory-level advantage is broadcast across many reasoning, API, and answer tokens. Self-distillation promises a denser signal by reusing a policy's own rollouts or a privileged teacher. We show, however, that direct token-level self-distillation can silently destroy tool use: it rehearses teacher behavior without knowing which actions the verifier rewards, so useful skills and harmful shortcuts are amplified together. We introduce Sibling-Guided Credit Distillation (SGCD), which uses distillation for credit assignment rather than as a competing actor loss. Dynamic sampling produces mixed successful and failed sibling rollouts; an external LLM summarizes their contrast into a training-only stepwise credit reference; dense teacher/student divergence drives credit reassignment; and bounded detached credit weights reshape GRPO token advantages. The deployed student sees no external LLM, sibling evidence, or oracle. Across AppWorld and $τ^3$-airline, SGCD improves over matched GRPO comparators: AppWorld TGC $42.9 \to 45.6$ on test_normal and $24.7 \to 27.0$ on test_challenge, and $τ^3$-airline pass@1 $0.583 \to 0.602$.
- Abstract(参考訳): 長期ツールを用いた強化学習は結果の検証から学ぶことができるが、その軌道レベルの優位性は多くの推論、API、回答トークンにまたがって放送される。
自己蒸留は、政策のロールアウトや特権教師を再利用することで、より密集的なシグナルを約束する。
しかし, 直接トークンレベルの自己蒸留はツールの使用を静かに破壊する可能性を示し, 検証者報酬の行動を知ることなく教師の行動をリハーサルするので, 有用なスキルと有害なショートカットを同時に増幅する。
SGCD(Singing-Guided Credit Distillation)を導入する。
ダイナミックサンプリングは、複雑な成功と失敗した兄弟関係のロールアウトを生み出し、外部のLCMは、そのコントラストを、トレーニングのみの段階的なクレジットリファレンスに要約し、密密な教師/学生分散は、クレジット再割り当てを駆動し、境界付き非接触クレジットウェイトはGRPOトークンのアドバンテージを再構成する。
配備された学生は、外部のLCM、兄弟の証拠、または託宣を見ることができない。
AppWorld TGC $42.9 \to 45.6$ on test_normal and $24.7 \to 27.0$ on test_challenge, $τ^3$-airline pass@1 $0.583 \to 0.602$。
関連論文リスト
- TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文 参考訳(メタデータ) (2026-06-04T07:15:43Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training [20.04756350098974]
ラベル付き検証可能なトレーニングデータがバインディング制約である場合、各チェックされた例は、最も情報のあるモデルと報酬密度に割り当てるべきである。
スパース・シークエンス・レベルの報酬は、より良い振る舞いを探索し発見できるモデルにおいて最も有用であるが、より密集したトークンレベルの教師監督は、その振る舞いをより小さなデプロイメントモデルに圧縮するのにより適している。
論文 参考訳(メタデータ) (2026-05-12T17:57:48Z) - Learning CLI Agents with Structured Action Credit under Selective Observation [10.420078730796321]
コマンドラインインタフェース(CLI)エージェントは、進化するエージェントとコンピュータの相互作用、実行可能なコマンドラインプログラム、オンライン実行フィードバックの実践パラダイムとして登場しつつある。
最近の研究では、これらのインタラクション能力を検証可能なタスクフィードバックから学習するために強化学習(RL)を使用しているが、CLIアクションのネイティブな構造化属性を学習信号として活用する手法はほとんどない。
シェル駆動型情報抽出とファイル編集タスクを用いて,これらのボトルネックについて検討する。
論文 参考訳(メタデータ) (2026-05-08T17:02:31Z) - Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents [24.99615788156812]
Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-12T14:57:52Z) - GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training [70.77088051192334]
視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド・シント・強化(GTR)とオン・ポリシィ蒸留(On-Policy Distillation)をクエリすることで報酬を強化する。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
論文 参考訳(メタデータ) (2025-12-15T07:11:56Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。