論文の概要: SkillCAT: Contrastive Assessment and Topology-Aware Skill Self-Evolution for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.13317v1
- Date: Thu, 11 Jun 2026 13:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.810524
- Title: SkillCAT: Contrastive Assessment and Topology-Aware Skill Self-Evolution for LLM Agents
- Title(参考訳): SkillCAT: LLMエージェントのコントラスト評価とトポロジック・アウェア・スキル・セルフ進化
- Authors: Kunfeng Chen, Qihuang Zhong, Juhua Liu, Bo Du,
- Abstract要約: 現在のパイプラインはタスク毎の1つのトラックから学び、チェックする前に候補スキルパッチをマージし、推論前にフルスキルコーパスをロードする。
トレーニング不要のフレームワークであるSkillCATを提案し,このプロセスを3段階に分けた。
SpreadsheetBench,WikiTableQuestions,DocVQAなど,一般的なエージェントベンチマーク上でSkillCATを評価する。
- 参考スコア(独自算出の注目度): 42.30624901249764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill self-evolution methods for LLM agents aim to turn execution trajectories into reusable skill documents, but current pipelines typically learn from one trajectory per task, merge candidate skill patches before checking them, and load the full skill corpus before inference. We propose SkillCAT, a training-free framework that separates this process into three stages. Contrastive Causal Extraction (CCE) samples multiple trajectories for each task and compares same-task success/failure pairs to identify evidence that explains outcome differences. Assessment-Augmented Evolution (AAE) replays each candidate patch on source-task clones and keeps only patches that improve or preserve task outcomes before hierarchical skill patch merging. Topology-Aware Task Execution (TTE) compiles the evolved skills into a routable sub-skill topology, so inference loads only the capability nodes relevant to the task. We evaluate SkillCAT on common agent benchmarks, including SpreadsheetBench, WikiTableQuestions, and DocVQA, and further test cross-model and out-of-distribution generalization. Across these settings, SkillCAT raises the average score over baselines by up to 40.40%, demonstrating reliable skill evolution without model training.
- Abstract(参考訳): LLMエージェントのスキル自己進化方法は、実行軌跡を再利用可能なスキルドキュメントにすることを目的としているが、現在のパイプラインは通常、タスク毎に1つのトラックから学習し、チェックする前に候補スキルパッチをマージし、推論前にフルスキルコーパスをロードする。
トレーニング不要のフレームワークであるSkillCATを提案し,このプロセスを3段階に分けた。
Contrastive Causal extract (CCE)は、タスクごとに複数のトラジェクトリをサンプリングし、同じタスクの成功/失敗ペアを比較して、結果の違いを説明する証拠を特定する。
Assessment-Augmented Evolution (AAE)は、ソースタスククローン上の各候補パッチをリプレイし、階層的なスキルパッチがマージされる前にタスク結果を改善し、保存するパッチのみを保持する。
Topology-Aware Task Execution (TTE)は、進化したスキルをroutableサブスキルトポロジにコンパイルするので、推論はタスクに関連する機能ノードのみをロードする。
本研究では, SpreadsheetBench, WikiTableQuestions, DocVQAなどの一般的なエージェントベンチマーク上でSkillCATを評価し, さらにクロスモデルとアウト・オブ・ディストリビューションの一般化を検証した。
これらの設定全体で、SkillCATはベースライン平均スコアを最大40.40%引き上げ、モデルトレーニングなしで信頼性の高いスキル進化を示す。
関連論文リスト
- SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior [23.11308948097101]
現在のベンチマークでは、スキルがどのように組織化されているのかを区別することは滅多にありません。
我々は、この区別をプログレッシブ・開示(Progressive Disclosure)を通じて研究し、簡潔なルートファイルが要求に応じてリソースを支援するためにエージェントを指示する。
本稿では,スキル記述パラダイムを評価するフレームワークであるSkillJurorを紹介する。
論文 参考訳(メタデータ) (2026-06-10T01:11:50Z) - SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision [41.562357872885826]
SkillReviseはエージェントスキルを反復的に洗練するために設計された実行基盤フレームワークである。
SkillReviseは、実行エビデンスからスキル欠陥を診断し、一般的なメモリから関連する修復原則を検索し、実行順に編集を適用する。
単発ベースラインを大幅に上回り、SkillsBenchにおけるベースエージェントの成功率は36.05%から61.63%に向上した。
論文 参考訳(メタデータ) (2026-05-31T10:19:13Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills [21.971456179996093]
Trace2Skillは、人間の専門家がいかにスキルを作成できるかを反映するフレームワークです。
個々のトラジェクトリにシーケンシャルに反応する代わりに、Trace2Skillは並列なサブエージェント群を派遣して、さまざまな実行プールを分析する。
トラジェクトリ固有のレッスンを抽出し、階層的にそれらをインダクティブ推論を通じて統合され、コンフリクトフリーなスキルディレクトリに集約する。
論文 参考訳(メタデータ) (2026-03-26T08:26:38Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。