論文の概要: A Framework for Evaluating Agentic Skills at Scale
- arxiv url: http://arxiv.org/abs/2606.17819v1
- Date: Tue, 16 Jun 2026 11:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.407021
- Title: A Framework for Evaluating Agentic Skills at Scale
- Title(参考訳): エージェントスキルを大規模に評価するためのフレームワーク
- Authors: Maksim Shaposhnikov, Nicolas Fortuin, Simon Stipcich, Maria I. Gorinova, Amy Heineike, Rob Willoughby,
- Abstract要約: エージェントスキルは構造化され、エージェント能力を増強する再利用可能な知識アーティファクトである。
個々のスキルを評価するための再利用可能な方法論は存在しない。
本稿では,スキルライターが現実的なタスクを構築できる評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.4509560087514856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent skills -- structured, reusable knowledge artifacts that augment LLM agent capabilities -- have been rapidly adopted in industry, yet their cross-domain impact and use across commercial and open-source models remain under-studied, and no reusable methodology exists for evaluating an individual skill. In this work, we present an evaluation framework that lets a skill author construct realistic tasks to rigorously assess the aspects of a skill that matter most to them, and that estimates skill utility by solving those tasks. Further, we apply our evaluation approach at scale to 500 real-world skills, generating 1,000 tasks derived from the skills' content, along with instruction-following and goal-completion scoring rubrics. Using these metrics, we evaluate how 19 agent-model configurations, both proprietary and open-source, perform on the tasks. Our results show that models vary widely in how closely they adhere to the instructions encoded in skills, leading to substantial differences in their performance gains. Furthermore, we show that access to a skill significantly changes model behavior compared to the no-skill setup, providing an essential mechanism for encoding opinionated workflows into LLM agents. We release our evaluation dataset to support future work on agent skills.
- Abstract(参考訳): エージェントスキル -- LLMエージェント能力を増強する再利用可能な知識アーティファクト -- は、業界において急速に採用されているが、そのクロスドメインな影響と商用およびオープンソースモデル間の使用は、未調査のままであり、個々のスキルを評価するための再利用可能な方法論は存在しない。
本研究では,スキル作者が現実的なタスクを構築して,最も重要なスキルの側面を厳格に評価し,それらのタスクを解くことで,スキルの有用性を推定する評価フレームワークを提案する。
さらに,本評価手法を実世界の500のスキルに適用し,学習内容から1,000のタスクを生成するとともに,教示追従とゴール完了スコアリングのルーリックも生成する。
これらの指標を用いて、プロプライエタリとオープンソースの両方で、19のエージェントモデル構成がタスクでどのように機能するかを評価する。
以上の結果から, モデルがスキルを符号化した命令にどの程度忠実かは, モデルによって大きく異なっており, 性能が著しく異なることが示唆された。
さらに,スキルへのアクセスは,非スキル設定に比べてモデル動作を著しく変化させることを示し,評価されたワークフローをLLMエージェントにエンコードするための重要なメカニズムを提供する。
エージェントスキルの今後の開発を支援するための評価データセットをリリースする。
関連論文リスト
- SkillComposer: Learning to Evolve Agent Skills for Specification and Generalization [99.18305770138677]
エージェントスキルは、エージェントの推論とアクションをガイドする再利用可能な戦略である。
現在の技術構築手法は、問題を一発抽出として扱う。
本稿では,スキル構築を3つの学習可能な操作に分解するフレームワークであるSkillComposerを紹介する。
論文 参考訳(メタデータ) (2026-06-04T12:16:08Z) - OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents [15.598856888948093]
スキル強化エージェントシステムとスキル自体の自動評価フレームワークであるtextscOpenSkillEvalを提案する。
静的ベンチマークに頼る代わりに、textscOpenSkillEvalは、現実世界のアーティファクトの進化から現実的なタスクインスタンスを自動的に構築する。
600以上の動的に生成されたタスクインスタンスと30のオープンソーススキルを使用して、最先端のモデルとエージェントフレームワークを体系的に評価する。
論文 参考訳(メタデータ) (2026-05-22T14:09:41Z) - How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings [29.3744517703302]
本研究は,段階的に挑戦的な現実的な環境下でのスキルユーティリティの総合的研究である。
その結果、設定がよりリアルになるにつれて、パフォーマンスは一貫して低下することがわかった。
クエリ固有の改善は、初期スキルが合理的な妥当性と品質を持つ場合に、性能を著しく回復することを示す。
論文 参考訳(メタデータ) (2026-04-06T00:10:30Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward [5.124116559484265]
モノリシックな言語モデルからモジュール化された、スキルを持ったエージェントへの移行は、大規模言語モデル(LLM)の実際のデプロイ方法に決定的な変化をもたらす。
すべての手続き的知識をモデルウェイト内にエンコードするのではなく、エージェントスキルは、再トレーニングせずに動的機能拡張を可能にする。
この調査は、エージェントスキルのランドスケープを包括的に扱うもので、ここ数ヶ月で急速に進化してきた。
論文 参考訳(メタデータ) (2026-02-12T21:33:25Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)による複雑な問題を解決する重要な方法となっている。
本稿では,LLMタスクを能力,スキル,知識の観点から再考する理論モデルであるRe-TASKフレームワークを紹介する。
多様な領域にわたる実験は、Re-TASKの有効性を示す。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。