Fugu-MT 論文翻訳(概要): SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History

論文の概要: SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History

arxiv url: http://arxiv.org/abs/2606.08671v1
Date: Sun, 07 Jun 2026 15:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.378169
Title: SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History
Title（参考訳）: SkillHone: 絶え間ない意思決定の歴史を通した継続的エージェントスキル進化のハーネス
Authors: Zhiwei Li, Yong Hu,
Abstract要約: SkillHoneは、永続的な意思決定履歴に基づく継続的エージェントスキル進化のためのハーネスである。 SkillHoneは、フィードバックを提供する評価側の証拠とスキルリビジョンをペアリングする。我々は、エージェントが統合検索スタックを与えられない生のオープンウェブ環境で、SkillHoneをディープ検索ベンチマークで評価する。
参考スコア（独自算出の注目度）: 4.682850246574405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agent skills extend language-model agents with task-specific procedures, scripts, and references, but the tasks and environments they target continually change. Existing methods improve skills in bounded runs and retain only the final artifact, discarding the decision history that later agents need to interpret prior revisions, evaluations, and rejected alternatives. We introduce SkillHone, a harness for continual agent skill evolution grounded in persistent decision history. SkillHone pairs skill revisions with evaluation-side evidence that supplies practice feedback, recording structured histories of diagnoses, revisions, evidence, and outcomes. Role-separated subagents run candidate skills on practice probes with redacted reporting and propose revisions informed by prior decisions, enabling cross-session refinement without rediscovering past rationale. We evaluate SkillHone on deep-research benchmarks in a raw open-web setting, where agents are not given an integrated search stack and must organize retrieval through portable skills. We compare against a deep-research agent backed by commercial retrieval services. With Qwen3.6-35B-A3B as the evaluation-time backbone, the resulting skills outperform the deep-research agent by 15.8 points on GAIA and 3.2 points on WebWalkerQA-EN, while also exceeding prior skill-evolution methods.
Abstract（参考訳）: エージェントスキルは、言語モデルエージェントをタスク固有のプロシージャ、スクリプト、参照で拡張するが、ターゲットとするタスクや環境は継続的に変化する。既存の手法は、有界ランニングにおけるスキルを改善し、最終成果物のみを保持し、後続のエージェントが事前の修正や評価、拒否された代替品を解釈する必要がある決定履歴を破棄する。 SkillHoneは、永続的意思決定履歴に基づく継続的エージェントスキル進化のためのハーネスである。 SkillHoneはスキルリビジョンと、実践的なフィードバックを提供する評価サイドのエビデンス、診断、リビジョン、エビデンス、結果の構造化履歴を記録する。役割分離されたサブエージェントは、過去の根拠を再発見することなく、実践調査の候補スキルを実行し、事前の判断によって通知された修正を提案する。我々はSkillHoneを生のオープンウェブ環境でのディープ検索ベンチマークで評価し、エージェントは統合検索スタックを与えられず、携帯スキルによる検索を組織化しなければならない。我々は,商用検索サービスによって支援されたディープ検索エージェントと比較した。 Qwen3.6-35B-A3Bを評価時バックボーンとし、その結果得られるスキルは、GAIAで15.8ポイント、WebWalkerQA-ENで3.2ポイント、さらに以前の技術進化法よりも優れていた。

関連論文リスト

Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows [1.9573380763700712]
構造化されていない知識ベース上での現実的な顧客サービスエラーにおけるツール利用AIエージェントのオーケストレーション機構について検討する。 i)ドメイン固有の3つのスキルファイルを推論時に読み込み、独自の制御フローを決定するDeclaativeAgent,(ii)明示的なフェーズを持つプログラム状態マシンに基づくImperativeAgent,(iii)$$-Knowledgeベンチマークエージェントをモデルとした非スキャフォールドベースラインエージェントを比較した。
論文参考訳（メタデータ） (2026-06-05T05:38:51Z)
Can Generalist Agents Automate Data Curation? [58.652262227632406]
トレーニングデータのキュレーションは、現代のAI開発において、もっとも重要だが労働集約的な部分のひとつだ。一般のコーディングエージェントがこのデータキュレーションループを自動化できるかどうかを問う。モデル、トレーニングレシピ、評価スイートを修正するエージェント中心のベンチマークである*Curation-Bench*を紹介します。
論文参考訳（メタデータ） (2026-06-02T22:26:53Z)
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。 SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文参考訳（メタデータ） (2026-05-22T18:23:31Z)
SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文参考訳（メタデータ） (2026-05-18T17:28:36Z)
FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文参考訳（メタデータ） (2026-04-14T17:04:25Z)
DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning [2.0329381271887255]
本稿では,1011のプロンプトを含むデュアルエージェント評価ベンチマークであるDETOUR(Obscure Under-specified Retrieval)を提案する。以上の結果から,現在の最先端モデルではベンチマークに苦戦しており,すべてのモダリティで評価した場合の精度は36%に過ぎなかった。
論文参考訳（メタデータ） (2026-01-30T22:01:30Z)
CATArena: Evaluation of LLM Agents through Iterative Tournament Competitions [49.02422075498554]
大言語モデル(LLM)エージェントは、基本的なテキスト生成から、外部ツールとのインタラクションを通じて、複雑なタスクを自律的に完了するまで進化してきた。本研究では,人間レベルインテリジェンスに向けたエージェント進化のコアドライバとして,自己改善とピアラーニングの両方を含む学習能力の重要性を強調した。本稿では,反復的かつ競合的なピアラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-30T15:22:53Z)
Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。 GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文参考訳（メタデータ） (2025-10-01T01:52:52Z)
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。