論文の概要: Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining
- arxiv url: http://arxiv.org/abs/2606.20363v1
- Date: Thu, 18 Jun 2026 15:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.94503
- Title: Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining
- Title(参考訳): 相互作用軌道マイニングによるコンピュータ利用エージェントのSKILL.md生成の自動化
- Authors: Yuexing Hao, Xiaomin Li,
- Abstract要約: 明示的なスキルライブラリにより、コンピュータ使用エージェントの検査が容易になるが、下流ポリシーを改善する方法で、インタラクションデータからそのようなライブラリをマイニングできるかどうかは不明だ。
この質問はGUIトラジェクトリ、クラスタセグメントを候補スキルに分割する3段階のパイプラインを通じて研究し、その結果のアノテーションからスキル認識ポリシーをトレーニングする。
トラジェクトリマイニングは検査可能なスキル構造を明らかにすることができるが、現在の境界検出器、秩序のないセグメント表現、オフライン報酬モデルは信頼性の高いドメイン間政策改善には不十分である。
- 参考スコア(独自算出の注目度): 13.114768589139308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explicit skill libraries make computer-using agents easier to inspect, but it remains unclear whether such libraries can be mined from interaction data in a way that improves downstream policies. We study this question through a three-stage pipeline that segments GUI trajectories, clusters segments into candidate skills, and trains a skill-aware policy from the resulting annotations. The mined clusters are readable on the source benchmark: five of eight clusters have at least 0.95 purity against InteraSkill Workflows labels. However, readability does not imply transfer. GRPO improves IW skill-step accuracy only from 18.5\% to 20.5\%, leaves BrowseComp+ essentially unchanged, and underperforms trivial frequency priors on key source-domain metrics. We therefore present the method as a diagnostic study: trajectory mining can expose inspectable skill structure, but the current boundary detector, orderless segment representation, and offline reward model are insufficient for reliable cross-domain policy improvement.
- Abstract(参考訳): 明示的なスキルライブラリにより、コンピュータ使用エージェントの検査が容易になるが、下流ポリシーを改善する方法で、インタラクションデータからそのようなライブラリをマイニングできるかどうかは不明だ。
この質問はGUIトラジェクトリ、クラスタセグメントを候補スキルに分割する3段階のパイプラインを通じて研究し、その結果のアノテーションからスキル認識ポリシーをトレーニングする。
8つのクラスタのうち5つは、InteraSkill Workflowsラベルに対して少なくとも0.95の純粋性を持っている。
しかし可読性は、転送を暗示しない。
GRPO は IW のスキルステップの精度を 18.5 % から 20.5 % に改善し、BrowseComp+ を基本的に変更せず、キーとなるソース・ドメインのメトリクスに対して自明な頻度で性能を低下させる。
トラジェクトリマイニングは検査可能なスキル構造を明らかにすることができるが、現在の境界検出器、秩序のないセグメント表現、オフライン報酬モデルは信頼性の高いドメイン間政策改善には不十分である。
関連論文リスト
- MCPShield: Content-Aware Attack Detection for LLM Agent Tool-Call Traffic [1.827510863075184]
Model Context Protocol (MCP) は、エージェントが外部ツールを呼び出すために広く採用されているインタフェースである。
MCPは、各エージェントセッションをグラフとしてエンコードするMCPツールコールトラフィックのアタックフレームワークとして提示される。
論文 参考訳(メタデータ) (2026-05-11T14:55:48Z) - Rudder: Steering Prefetching in Distributed GNN Training using LLM Agents [19.368928130932833]
Rudderは最先端のAWS DistDGLフレームワークに組み込まれたソフトウェアモジュールである。
我々は、リモートノードを自律的にプリフェッチするために、最先端のAWS DistDGLフレームワークに組み込まれたソフトウェアモジュールであるRudderを紹介した。
LLM(Large Language Models)に見られる生成AIは、ゼロショットタスクのためのICL(In-Context Learning)のような創発的な特性を示し、論理的多段階推論を行う。
論文 参考訳(メタデータ) (2026-02-26T23:39:42Z) - Semi-Supervised Cross-Domain Imitation Learning [9.740139304952615]
クロスドメイン模倣学習(CDIL)は、専門知識をドメイン間で伝達することで、政策学習を促進する。
本稿では,Semi-Supervised CDIL設定を導入し,SS-CDILの最初のアルゴリズムを提案する。
我々のアプローチは、最小限の監督で安定かつデータ効率の政策学習を実現する。
論文 参考訳(メタデータ) (2026-02-11T12:38:08Z) - RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文 参考訳(メタデータ) (2025-12-30T06:50:11Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - TADIL: Task-Agnostic Domain-Incremental Learning through Task-ID
Inference using Transformer Nearest-Centroid Embeddings [0.0]
ドメイン・インクリメンタル・ラーニングのシナリオにおいて,教師なしのタスクを識別するための新しいパイプラインを提案する。
我々は、パイプラインの軽量な計算要求を活用して、新しいタスクをいつ学習するかをオンラインで決定するアルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-06-21T00:55:02Z) - REGTR: End-to-end Point Cloud Correspondences with Transformers [79.52112840465558]
我々は、注意機構が明示的な特徴マッチングとRANSACの役割を置き換えることができると推測する。
本稿では,最終文集合を直接予測するエンドツーエンドフレームワークを提案する。
提案手法は3DMatchおよびModelNetベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T06:01:00Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Key Points Estimation and Point Instance Segmentation Approach for Lane
Detection [65.37887088194022]
本稿では,PINet (Point Instance Network) と呼ばれるトラヒックライン検出手法を提案する。
PINetには、同時にトレーニングされる複数のスタックされた時間ガラスネットワークが含まれている。
PINetはTuSimpleとCulaneのデータセットで競合精度と偽陽性を達成する。
論文 参考訳(メタデータ) (2020-02-16T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。