Fugu-MT 論文翻訳(概要): SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

論文の概要: SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

arxiv url: http://arxiv.org/abs/2606.14239v1
Date: Fri, 12 Jun 2026 08:20:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:42.822323
Title: SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing
Title（参考訳）: SkillAudit: Paired Trajectory Auditingによる地道自由スキル進化
Authors: Haowen Gao, Haoran Chen, Can Wang, Shasha Guo, Liang Pang, Zhaoyang Liu, Huawei Shen, Xueqi Cheng,
Abstract要約: SkillAuditは、地味なフィードバックなしにエージェントスキルを進化させるフレームワークである。行動の違いを編集指導に変換するために、SkillAuditはProcess-Aligned Contrastive Evaluationを使用する。 Refineはノイズや無関係なガイダンスを広く有用なスキルから取り除き、修復はタスクと競合するパスを置き換える。
参考スコア（独自算出の注目度）: 81.51044612408793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agent skills are structured procedural packages that guide frozen LLM agents in specialized workflows. Skills rarely remain sufficient after deployment: edge cases, API changes, and deployment constraints become visible only through use, making skill evolution a practical necessity. Existing methods depend on privileged feedback such as held-out validation scores, hidden test outcomes, or environment rewards -- signals often unavailable when a practitioner has only a task description and workspace data. We introduce SkillAudit, a framework for evolving agent skills without ground-truth feedback. The key idea is paired trajectory auditing: at each iteration, the same task is executed with and without the candidate skill, isolating how the skill changes agent behavior without external labels. To turn behavioral differences into edit guidance, SkillAudit uses Process-Aligned Contrastive Evaluation (PACE), a cluster of evaluators that maps trajectory divergences to diagnostic signals linked to specific passages in the skill document. A structural verifier, compiled once from the task specification and then fixed, checks task constraints and rolls back harmful updates. SkillAudit routes edits through two pipelines: Refine removes noisy or irrelevant guidance from broadly useful skills, while Repair replaces passages that conflict with the task. Across 89 containerized tasks spanning 8 professional domains, SkillAudit achieves 73.9% average task reward, outperforming an agent without skills (40.9%) and the static expert skill (56.7%). These gains are obtained without accessing hidden tests, reference solutions, or external scoring functions during evolution.
Abstract（参考訳）: エージェントスキルは、特殊なワークフローで凍結したLLMエージェントをガイドする手続きパッケージとして構成されている。エッジケース、APIの変更、デプロイメントの制約が使用を通じてのみ見えるようになり、スキルの進化を現実的に必要とします。既存のメソッドは、ホールドアウトのバリデーションスコア、隠れテスト結果、環境報酬などの特権的なフィードバックに依存します。 SkillAuditは,地味なフィードバックを伴わずにエージェントスキルを進化させるフレームワークである。各イテレーションにおいて、同じタスクが候補スキルで実行され、そのスキルがどのように外部ラベルなしでエージェントの振る舞いを変えるかを分離する。行動の違いを編集指導に変換するために、SkillAuditはProcess-Aligned Contrastive Evaluation (PACE)を使用する。タスク仕様から一度コンパイルされ、修正された構造検証器は、タスクの制約をチェックし、有害な更新をロールバックする。 Refineは、広範囲に有用なスキルからノイズや無関係なガイダンスを取り除き、リプリケーションは、タスクと競合するパスを置き換える。 8つの専門ドメインにまたがる89のコンテナ化されたタスクの中で、SkillAuditは73.9%の平均的なタスク報酬を獲得し、スキルのないエージェント(40.9%)と静的専門家スキル(56.7%)を上回っている。これらの利得は、進化中に隠れテスト、参照ソリューション、または外部スコアリング機能にアクセスすることなく得られる。

関連論文リスト

SkillCAT: Contrastive Assessment and Topology-Aware Skill Self-Evolution for LLM Agents [42.30624901249764]
現在のパイプラインはタスク毎の1つのトラックから学び、チェックする前に候補スキルパッチをマージし、推論前にフルスキルコーパスをロードする。トレーニング不要のフレームワークであるSkillCATを提案し,このプロセスを3段階に分けた。 SpreadsheetBench,WikiTableQuestions,DocVQAなど,一般的なエージェントベンチマーク上でSkillCATを評価する。
論文参考訳（メタデータ） (2026-06-11T13:12:10Z)
SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior [23.11308948097101]
現在のベンチマークでは、スキルがどのように組織化されているのかを区別することは滅多にありません。我々は、この区別をプログレッシブ・開示(Progressive Disclosure)を通じて研究し、簡潔なルートファイルが要求に応じてリソースを支援するためにエージェントを指示する。本稿では,スキル記述パラダイムを評価するフレームワークであるSkillJurorを紹介する。
論文参考訳（メタデータ） (2026-06-10T01:11:50Z)
What Should a Skill Remember? Quality--Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents [58.87681796862133]
我々は経済的なレンズを通してスキルの書き直しを勉強する。我々のフレームワークは、情報保存戦略を用いて、スキル構造をプロファイルし、スキルを書き換える。 SkillsBenchの実験は、戦略間の異なる品質とコストのトレードオフを明らかにしている。
論文参考訳（メタデータ） (2026-06-08T12:36:51Z)
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation [58.84646485020439]
人為的なAIスキルを生成するための自動トレース・ツー・スキル蒸留システムを提案する。 COLLEAGUE.SKILLは、実践、メンタルモデル、意思決定のための能力トラックと、コミュニケーションスタイル、インタラクションルール、修正履歴のための有界な行動トラックの2つのトラックを持つバージョン付きのスキルパッケージを生成する。
論文参考訳（メタデータ） (2026-05-29T12:59:08Z)
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。 SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文参考訳（メタデータ） (2026-05-22T18:23:31Z)
SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文参考訳（メタデータ） (2026-05-18T17:28:36Z)
Counterfactual Trace Auditing of LLM Agent Skills [38.396785087675774]
スキルがエージェントの振る舞いをどのように変化させるかを測定するためのフレームワークを紹介します。 SWE-Skills-Bench上のCTAを49のソフトウェアエンジニアリングタスクでClaudeでインスタンス化する。パスレートは平均で0.3ポイントしか変化せず、集合効果はほとんどなかった。
論文参考訳（メタデータ） (2026-05-12T10:56:18Z)
SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。 SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。 SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2026-05-07T17:31:50Z)
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文参考訳（メタデータ） (2026-02-13T07:06:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。