論文の概要: What Should a Skill Remember? Quality--Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents
- arxiv url: http://arxiv.org/abs/2606.09421v2
- Date: Tue, 09 Jun 2026 02:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.818505
- Title: What Should a Skill Remember? Quality--Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents
- Title(参考訳): スキルは何を覚えるべきか?--言語モデルエージェントのコスト認識スキルのトレードオフ-
- Authors: Qinghua Xing, Yinda Chen, Yaping Jin, Zhenhe Wu, Bohan Lin, Hang Zhou, Xinghao Chen, Hanting Chen, Zhiwei Xiong,
- Abstract要約: 我々は経済的なレンズを通してスキルの書き直しを勉強する。
我々のフレームワークは、情報保存戦略を用いて、スキル構造をプロファイルし、スキルを書き換える。
SkillsBenchの実験は、戦略間の異なる品質とコストのトレードオフを明らかにしている。
- 参考スコア(独自算出の注目度): 58.87681796862133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, tool use, implementation patterns, validation checks, and domain rules. Skill rewriting is often treated as prompt compression, but shorter skills can make agents more expensive by removing sparse operational anchors that prevent exploration, debugging, and recovery. We study skill rewriting through this economic lens. Our controlled framework profiles skill structure, rewrites skills using information-preservation strategies, and evaluates the rewrites under fixed task instructions, environments, and verifiers. Experiments on SkillsBench reveal distinct quality--cost trade-offs across strategies: API/code anchoring, workflow guarding, and rule/formula anchoring benefit different task families, with no universally dominant template. In the main held-out evaluation, the learned policy reduces total cost by 7.0% and downstream agent-token cost by 6.0%; in frozen cross-model transfer, the corresponding reductions average 14.7% and 13.7%, while verifier quality is preserved. These results position skill design as cost-aware operational knowledge engineering rather than prompt compression. Resources: https://github.com/1Reminding/Skill_EE.
- Abstract(参考訳): ワークフローをエンコードする再利用可能な手続きドキュメント、ツールの使用、実装パターン、バリデーションチェック、ドメインルール。
スキルの書き直しは、しばしば即時圧縮として扱われるが、より短いスキルは、探索、デバッグ、リカバリを防ぐためのスパーオペレーティングアンカーを削除することで、エージェントをより高価にすることができる。
私たちはこの経済レンズを通してスキルの書き直しを勉強する。
制御されたフレームワークは、スキル構造をプロファイルし、情報保存戦略を用いてスキルの書き直しを行い、固定されたタスク命令、環境、検証者の下での書き直しを評価する。
SkillsBenchの実験は、API/コードのアンカー、ワークフローのガード、ルール/フォーミュラアンカーなど、戦略間で異なる品質とコストのトレードオフを明らかにしている。
メインホールドアウト評価では、学習ポリシーは総コストを7.0%削減し、下流エージェントトーケンコストを6.0%削減する。
これらの結果から, 技術設計を即時圧縮ではなく, コストを意識した運用知識工学として位置づけた。
リソース: https://github.com/1Reminding/Skill_EE.com
関連論文リスト
- SkillComposer: Learning to Evolve Agent Skills for Specification and Generalization [99.18305770138677]
エージェントスキルは、エージェントの推論とアクションをガイドする再利用可能な戦略である。
現在の技術構築手法は、問題を一発抽出として扱う。
本稿では,スキル構築を3つの学習可能な操作に分解するフレームワークであるSkillComposerを紹介する。
論文 参考訳(メタデータ) (2026-06-04T12:16:08Z) - Contractual Skills: A GovernSpec Design Framework for Enterprise AI Agents [8.419155861590548]
本稿では,SKILL.mdファイルを可読性のあるタスクコントラクトとして整理するための,GovernSpecにインスパイアされた設計フレームワークであるコントラクトスキルを提案する。
このフレームワークは、コントラクトスキル、GovernSpec YAMLコントラクト、モデルコンテキストプロトコル(MCP)サーフェス、ツールアダプタ、ランタイムガードレール、トレース、評価システムの境界を明確にしている。
論文 参考訳(メタデータ) (2026-05-21T15:40:05Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents [6.293920920196533]
SkillLensは階層的なスキル進化フレームワークで、スキルをポリシー、戦略、手順、プリミティブの4層グラフにまとめる。
セマンティックなスキルシードを検索し、スキルグラフの次数補正されたランダムウォークを通じて拡張し、各訪問したユニットが受け入れられ、分解され、書き直され、スキップされるかどうかを検証器を使って決定する。
MuLocbenchとALFWorld全体で、SkillLensは、強いスキルベースのベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T18:48:04Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - SCPatcher: Automated Smart Contract Code Repair via Retrieval-Augmented Generation and Knowledge Graph [6.3824778021369]
SCPatcherは、検索強化世代と知識グラフを組み合わせて、スマートコントラクトの自動修復を行うフレームワークである。
5000の検証済み契約から知識グラフを構築し,機能レベルの関係を抽出して意味ネットワークを構築する。
SCPatcherは81.5%の全体的な修復率と91.0%のコンパイルパス率を達成し、既存の方法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-04-01T09:44:45Z) - EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - SkillCraft: Can LLM Agents Learn to Use Tools Skillfully? [67.69996753743129]
SkillCraftは、高レベルのツールコンポジションの生成と再利用を可能にする、明示的にストレステストエージェントのベンチマークである。
SkillCraftは、定量次元と構造次元の両方に沿ってスケールする困難を伴う、現実的で、構成性の高いツール使用シナリオを特徴としている。
本稿では,エージェントがアトミックツールを実行可能なスキルに自動生成し,タスク内およびタスク間のキャッシュと再利用を可能にする軽量な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-28T15:44:31Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。