論文の概要: Co-Evolving Skill Generation and Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.08755v1
- Date: Sun, 07 Jun 2026 17:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.431165
- Title: Co-Evolving Skill Generation and Policy Optimization
- Title(参考訳): 共進化型スキル生成と政策最適化
- Authors: Zhiwei Zhang, Yudi Lin, Nikki Lijing Kuang, Linlin Wu, Xiaomin Li, Songtao Liu, Fenglong Ma,
- Abstract要約: 既存の手法は通常、強力な言語モデルを使用してトラジェクトリを分析し、スキルを生成し、オンライントレーニング中に検索可能なスキルバンクを更新します。
プレストレージスキル検証のためのオンライン強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.41582114275514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill-augmented reinforcement learning improves language agents by storing reusable procedural knowledge acquired from past experience. Existing methods typically use strong language models to analyze trajectories, generate skills, and update a retrievable skill bank during online training. However, they rarely assess whether a newly generated skill is useful before it is stored and reused. We find that this assumption is unreliable: even skills generated by proprietary frontier LLMs exhibit highly mixed utility, with many providing little benefit or even degrading performance. Once such skills enter the bank, their effects are difficult to identify, because subsequent rollout feedback is delayed and usually reflects the combined effect of multiple retrieved skills rather than the marginal contribution of any individual skill. We propose an online reinforcement learning framework for pre-storage skill validation. The framework estimates whether a candidate skill contributes useful information beyond the skills already retrieved for the current task. It uses the standard rollout budget to form two matched groups under the same task and retrieval context: base rollouts conditioned on the currently retrieved skills, and skill-augmented rollouts conditioned on the same skills plus one candidate skill induced from the base trajectories. The reward gap between these two groups estimates the candidate skill's context-dependent marginal utility, enabling the framework to promote useful skills while filtering ineffective or harmful ones without additional rollout overhead. The framework further uses this marginal-utility signal to train the policy itself as a skill generator, reducing reliance on repeated calls to proprietary models. The learned skill-generation likelihood serves as a context-dependent score for retrieval-time reranking and outdated-skill pruning as the policy evolves.
- Abstract(参考訳): スキル強化型強化学習は、過去の経験から得た再利用可能な手続き的知識を記憶することで、言語エージェントを改善する。
既存の手法は通常、強力な言語モデルを使用してトラジェクトリを分析し、スキルを生成し、オンライントレーニング中に検索可能なスキルバンクを更新します。
しかし、新しく生成されたスキルが保存され再利用される前に有用かどうかを評価することは滅多にない。
プロプライエタリなフロンティアLLMが生み出すスキルでさえ、非常に混合したユーティリティを示しており、その多くがほとんど利益を提供しておらず、性能も劣化している。
このようなスキルが銀行に入ると、その後のロールアウトのフィードバックが遅れ、通常、個々のスキルの限界的な貢献よりも複数のスキルの複合的な効果を反映するため、その効果を特定するのが困難になる。
プレストレージスキル検証のためのオンライン強化学習フレームワークを提案する。
フレームワークは、候補となるスキルが、現在のタスクのために既に取得したスキル以外の有用な情報に寄与するかどうかを推定する。
標準的なロールアウト予算を使用して、同じタスクと検索コンテキストの下で2つのマッチしたグループを形成する:現在検索されているスキルに条件付けされたベースロールアウトと、同じスキルに条件付けされたスキル強化ロールアウトと、ベーストラジェクトリから誘導された1つの候補スキル。
これら2つのグループ間の報酬ギャップは、候補スキルのコンテキスト依存の限界効用を推定し、フレームワークは、追加のロールアウトオーバーヘッドなしに、非有効または有害なスキルをフィルタリングしながら、有用なスキルを促進することができる。
このフレームワークはさらに、この限界効用信号を使用して、ポリシー自体をスキルジェネレータとしてトレーニングし、プロプライエタリなモデルへの繰り返し呼び出しへの依存を減らす。
学習したスキル生成の可能性は、ポリシーが進化するにつれて、検索時間の再ランク付けと時代遅れのスキルプルーニングの文脈依存スコアとして機能する。
関連論文リスト
- SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment [4.336665585098371]
本稿では,このコントラストを内部化のための直接学習信号に変換するContrastive Skill Credit Assignment (CSCA) に基づくフレームワークであるSkillCを提案する。
textscSkillCは、同じポリシー更新内でアクティブなスキルタイプからのタスクに対して、ペア化されたスキル注入とスキルフリーのロールアウトをサンプリングする。
スムーズな検証レベル信号は、帰属強度、ロールアウトアロケーション、単調なアクティブセットプルーニングよりも適応的なカリキュラムを駆動する。
論文 参考訳(メタデータ) (2026-05-27T03:21:19Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。
SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。
SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-07T17:31:50Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。