論文の概要: HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation
- arxiv url: http://arxiv.org/abs/2606.11559v1
- Date: Wed, 10 Jun 2026 01:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.238123
- Title: HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation
- Title(参考訳): HERO: 環境観測からの隠れた反射
- Authors: Haoran Liu, Yuwei Zhang, Xiyao Li, Bohan Lyu, Jingbo Shang,
- Abstract要約: HEROは、次の環境観測を局所的に整列したフィードバックとして利用する、後向きの自己蒸留フレームワークである。
HEROはタスク成功を改善し、環境フィードバックのみの自己蒸留とGRPOに対する不要なターンを減らす。
- 参考スコア(独自算出の注目度): 50.53459634301361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning typically improves multi-turn agent capabilities through the terminal outcome of the trajectories, which makes it difficult to determine credit assignments for each intermediate turns. Recent on-policy self-distillation methods offer a promising alternative by converting privileged feedback into dense token-level supervision through a self-teacher. Our study is motivated by the unexpected performance degradation observed when naively extending this paradigm to multi-turn settings, which we attribute to a lack of alignment between privileged feedback, such as successful trajectories or terminal outcomes, and the student's current decision context. We introduce HERO, a hindsight-enhanced self-distillation framework that uses next environment observations as locally aligned feedback. After each rollout, HERO reflects on the completed interaction to convert each observation into a compact turn-level diagnosis, that captures actionable feedback about the original action such as its necessity, validity or failure cause. On TauBench and WebShop, HERO improves task success and reduces unnecessary turns over environment-feedback-only self-distillation and GRPO. It is especially effective under limited training turn budgets, where successful rollouts are rare and GRPO provides weak reward-contrast signals.
- Abstract(参考訳): 強化学習は典型的には、軌道の終端結果を通じてマルチターンエージェント能力を改善し、中間旋回ごとにクレジット割り当てを決定するのが困難になる。
近年のオンライン自己蒸留法は、特権フィードバックを自己教育者を通じて高密度トークンレベルの監督に変換することで、有望な代替手段を提供する。
本研究の動機は,このパラダイムをマルチターン設定にナレーション的に拡張する際の予期せぬ性能劣化であり,これは,軌道や終末結果などの特権的フィードバックの整合性の欠如と,学生の現在の意思決定状況に起因している。
我々は,次の環境観測を局所的に整列したフィードバックとして利用する,後向きの自己蒸留フレームワークHEROを紹介する。
各ロールアウト後、HEROは完了した相互作用を反映して、それぞれの観察をコンパクトなターンレベルの診断に変換する。
TauBenchとWebShopでは、HEROはタスクの成功を改善し、環境フィードバックのみの自己蒸留とGRPOよりも不要なターンを減らす。
限定的なトレーニングターン予算では特に有効であり、ロールアウトの成功は稀であり、GRPOは報酬コントラストの弱い信号を提供する。
関連論文リスト
- What and When to Distill: Selective Hindsight Distillation for Multi-Turn Agents [70.6980022118038]
強化学習は、緩やかなタスク報酬からLLMエージェントを訓練することができるが、長期的なクレジット割り当ては依然として困難である。
既存の方法は、ステップごとの環境フィードバックを完全に活用することなく、軌道レベルの報酬やプロキシ信号に依存している。
環境重み付け学習フレームワークであるSERLを紹介する。
論文 参考訳(メタデータ) (2026-05-19T07:00:55Z) - HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents [45.00250014235802]
強化学習による長期LLMエージェントの訓練は、タスクが成功するか、どの中間動作が結果を引き起こしたのか、どのように修正されるべきなのかを明らかにするため、困難である。
近年の手法では、ターンレベルのアクション出力信号から報酬やテキストヒントを生成したり、あるいはフィードバック条件の自己蒸留を用いてこの問題を緩和している。
本研究では,HINT-SDを提案する。HINT-SDは,フルトラジェクティブ・ヒンドシット(Hndsight)を用いて,障害関連アクションを選択し,目標アクションスパンのみにフィードバック条件付き蒸留を適用する。
論文 参考訳(メタデータ) (2026-05-18T05:34:03Z) - Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation [71.16738415436458]
本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-12T20:46:05Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Internalizing Agency from Reflective Experience [20.650609947690196]
LEAFEは、リカバリエージェンシーをリフレクティブエクスペリエンスから内部化するフレームワークである。
ベースモデルよりも一貫してPass@1を改善し、結果駆動ベースラインよりも高いPass@kを実現している。
論文 参考訳(メタデータ) (2026-03-17T17:50:47Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。