Fugu-MT 論文翻訳(概要): SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

論文の概要: SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

arxiv url: http://arxiv.org/abs/2606.11543v1
Date: Wed, 10 Jun 2026 01:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-11 16:42:38.229444
Title: SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior
Title（参考訳）: SkillJuror: エージェントスキル組織が実行時の振る舞いをどのように変えるかを測定する
Authors: Zhiyu Chen, Zihan Guo, Bo Huang, Bingwei Lu, Jianghao Lin, Yuanjian Zhou, Weinan Zhang,
Abstract要約: 現在のベンチマークでは、スキルがどのように組織化されているのかを区別することは滅多にありません。我々は、この区別をプログレッシブ・開示(Progressive Disclosure)を通じて研究し、簡潔なルートファイルが要求に応じてリソースを支援するためにエージェントを指示する。本稿では,スキル記述パラダイムを評価するフレームワークであるSkillJurorを紹介する。
参考スコア（独自算出の注目度）: 23.11308948097101
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agent Skills augment large language model (LLM) agents with procedural knowledge at inference time, but current benchmarks rarely distinguish what a Skill says from how it is organized. We study this distinction through Progressive Disclosure, where a concise root file points agents to supporting resources on demand, and compare it with a normalized flat baseline. We present SkillJuror, a framework for evaluating Skill writing paradigms through semantically controlled variants, matched multi-trial evaluations, and trajectory evidence while holding task knowledge fixed. In an 82-task SkillsBench study, Progressive Disclosure changes runtime behavior before aggregate outcomes: distinct Skill resources touched per trajectory rise from 1.18 to 3.85, and effective uptake events rise from 1.33 to 3.92. It also yields 17 additional verifier-passing trials out of 410 matched trials (+4.1%) over the normalized flat baseline. The benefit is task-dependent. Progressive Disclosure helps when supporting resources guide implementation, checking, or repair, but is weaker when success hinges on exact output conventions, numerical thresholds, or long artifact-generation pipelines. These results show that Skill organization is not mere presentation: it can change how agents search and apply procedural knowledge, while outcome gains depend on whether the exposed resources are actionable for the task. Code is available at https://github.com/zhiyuchen-ai/skill-juror.
Abstract（参考訳）: Agent Skillsは、推論時に手続き的知識を持つ大きな言語モデル(LLM)エージェントを増強するが、現在のベンチマークでは、Skillがどのように組織化されているかと、何と言うかを区別することは滅多にない。本稿では、この特徴をプログレッシブ開示(Progressive Disclosure)を通じて研究し、そこでは、簡潔なルートファイルが要求に応じてリソースを支援するエージェントを指し、正規化されたフラットベースラインと比較する。本稿では,SkillJurorを提案する。SkillJuror,SkillJuror,SkillJuror,SkillJuror,SkillJuror,SkillJuror,SkillJuror。 82-task SkillsBenchの研究では、プログレッシブ・ディスクロジャーは集合結果の前に実行時の振る舞いを変える: 軌道毎にタッチされたスキルリソースは1.18から3.85に増加し、効果的な取り込みイベントは1.33から3.92に増加した。また、410の一致した試験(+4.1%)のうち17の検証器通過試験を正規化された平坦な基準線に対して与えている。メリットはタスク依存です。プログレッシブな開示は、リソースガイドの実装、チェック、または修復をサポートするのに役立つが、成功が正確な出力規則、数値しきい値、あるいは長いアーティファクト生成パイプラインに依存すると、より弱い。これらの結果は、スキル組織が単なるプレゼンテーションではないことを示している。エージェントが手続き的知識を探索し、適用する方法を変えるが、その結果は、そのタスクに対して露出したリソースが動作可能かどうかに依存する。コードはhttps://github.com/zhiyuchen-ai/skill-juror.comで入手できる。

関連論文リスト

What Should a Skill Remember? Quality--Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents [58.87681796862133]
我々は経済的なレンズを通してスキルの書き直しを勉強する。我々のフレームワークは、情報保存戦略を用いて、スキル構造をプロファイルし、スキルを書き換える。 SkillsBenchの実験は、戦略間の異なる品質とコストのトレードオフを明らかにしている。
論文参考訳（メタデータ） (2026-06-08T12:36:51Z)
Anything2Skill: Compiling External Knowledge into Reusable Skills for Agents [27.965275812765015]
Anything2Skillは、異種外部の知識を再利用可能な、検索可能な、エージェントの実行可能なスキルにコンパイルする分類誘導フレームワークである。我々は、Anything2SkillとRAGを組み合わせることで、それぞれ98.85%と94.10%の成功率が得られることを示した。
論文参考訳（メタデータ） (2026-06-08T10:24:32Z)
SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History [4.682850246574405]
SkillHoneは、永続的な意思決定履歴に基づく継続的エージェントスキル進化のためのハーネスである。 SkillHoneは、フィードバックを提供する評価側の証拠とスキルリビジョンをペアリングする。我々は、エージェントが統合検索スタックを与えられない生のオープンウェブ環境で、SkillHoneをディープ検索ベンチマークで評価する。
論文参考訳（メタデータ） (2026-06-07T15:21:08Z)
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。 SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文参考訳（メタデータ） (2026-05-22T18:23:31Z)
Counterfactual Trace Auditing of LLM Agent Skills [38.396785087675774]
スキルがエージェントの振る舞いをどのように変化させるかを測定するためのフレームワークを紹介します。 SWE-Skills-Bench上のCTAを49のソフトウェアエンジニアリングタスクでClaudeでインスタンス化する。パスレートは平均で0.3ポイントしか変化せず、集合効果はほとんどなかった。
論文参考訳（メタデータ） (2026-05-12T10:56:18Z)
SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。 SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文参考訳（メタデータ） (2026-05-09T19:24:11Z)
SkillOS: Learning Skill Curation for Self-Evolving Agents [67.94374107466957]
本稿では,自己進化エージェントのスキルキュレーションを学習するための,経験駆動型RLトレーニングレシピであるSkillOSを提案する。 SkillOSは、凍結したエージェントエグゼキュータとトレーニング可能なスキルキュレーターを組み合わせて、蓄積したエクスペリエンスから外部SkillRepoを更新する。 SkillOSは、メモリフリーと強力なメモリベースラインを、有効性と効率の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2026-05-07T17:31:50Z)
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文参考訳（メタデータ） (2026-03-15T16:13:58Z)
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。 SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文参考訳（メタデータ） (2026-02-13T07:06:06Z)
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。 ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-02-09T03:17:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。