論文の概要: Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns
- arxiv url: http://arxiv.org/abs/2606.17645v1
- Date: Tue, 16 Jun 2026 08:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.342464
- Title: Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns
- Title(参考訳): Beyond Domains: 転送可能なインタラクションパターンによるWebスキルの再利用
- Authors: Shiqi He, Yue Cui, Feijie Wu, Xinyu Ma, Jiaheng Lu, Yaliang Li, Bolin Ding, Mosharaf Chowdhury,
- Abstract要約: SkillMigratorは再利用可能なWebスキルを学習し、特定の要素参照ではなくレイアウト構造にマッチしてサイト間でそれらを転送する。
WebArenaとMind2Webの両方において、成功軌道上の平均LCM-アクション数を、一致した成功速度で8-10%削減する。
- 参考スコア(独自算出の注目度): 68.0603867264595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) web agents are usually deployed as tool callers: each turn, the model reads a fresh page observation and emits one structured tool action. When every action is a low-level primitive, horizons grow quickly and so do policy-facing LLM completions, dominating latency and cost on benchmarks such as Mind2Web and WebArena. Recent systems therefore wrap repeated interaction fragments as web skills: callable tools built from successful trajectories or induced programs, so one call can replace several primitives. However, prior skill libraries are still triggered mainly by instruction similarity or coarse site metadata, which yields low skill reuse on held-out sites and leaves much of the potential step and token reduction on the table. We present SkillMigrator, an agent that learns reusable web skills and transfers them across sites by matching layout structure rather than specific element references. Each induced skill is stored as a transferable interaction pattern (TIP): the skill paired with a structural sketch of the snapshot at induction time. At test time, SkillMigrator retrieves TIPs by layout similarity and grounds their references on the live page. The rest of the stack is standard: accessibility-snapshot observations with stable references, and fixed tool calling over primitives plus skill invocations. Compared with the state-of-the-art approaches, SkillMigrator reduces the average LLM-action count on successful trajectories by 8-10% across both WebArena and Mind2Web at matched success rate.
- Abstract(参考訳): 大規模言語モデル(LLM)のWebエージェントは通常、ツール呼び出しとしてデプロイされる。
すべてのアクションが低レベルのプリミティブである場合、地平線は急速に増加し、ポリシー対応のLCM補完、Mind2WebやWebArenaのようなベンチマークのレイテンシとコストが支配される。
近年のシステムでは、対話の断片をWebスキルとしてラップしている: 成功した軌道や誘導プログラムから構築された呼び出し可能なツールで、複数のプリミティブを置き換えることができる。
しかし、事前のスキルライブラリは、主に命令の類似性や粗いサイトのメタデータによって起動されるため、保持されたサイトでのスキルの再利用が低くなり、潜在的なステップの大部分とトークンの削減がテーブルに残される。
SkillMigratorは、再利用可能なWebスキルを学習し、特定の要素参照ではなくレイアウト構造にマッチしてサイト間でそれらを転送するエージェントである。
各誘導されたスキルは、転送可能なインタラクションパターン(TIP)として格納される。
テスト時に、SkillMigratorはレイアウトの類似性によってTIPを検索し、その参照をライブページでグラウンドする。
スタックの残りの部分は、安定した参照を持つアクセシビリティ・スナップショットの観察と、プリミティブとスキルの呼び出しに対する固定されたツールである。
SkillMigratorは最先端のアプローチと比較して,WebArenaとMind2Webのいずれにおいても,成功軌道上での平均LCMアクション数を8~10%削減する。
関連論文リスト
- Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval [41.11944743292013]
State-Grounded Dynamic Retrieval (SGDR)は、Webエージェントの段階的なスキル再利用を可能にするオンラインスキル学習手法である。
SGDRは3つのコンポーネントから構成される: 完了したトラジェクトリを中間実行状態で実行不可能な再利用可能なサブプロデューサに変換するスライディングウィンドウ抽出プロセス、スキル検索と実行可能なアクションを接続するデュアルテキストコード表現、タスクゴールと現在のWebページ状態の両方にスキルにマッチするステートグラウンド動的検索機構。
論文 参考訳(メタデータ) (2026-06-03T03:11:50Z) - GTA: Generating Long-Horizon Tasks for Web Agents at Scale [82.43869456830664]
我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
論文 参考訳(メタデータ) (2026-05-28T01:05:50Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning [17.92660876001036]
Webエージェントは、異なるタスクを実行するために、ハイレベル推論と低レベルインタラクションの両方を必要とします。
本稿では、歴史的経験を自然言語推論スキルに分割する二段階スキルモデリングフレームワークDRIVEを提案する。
実験によると、DRIVEのタスク成功率は52.8%で、スキルフリーのベースラインを7.3%上回っている。
論文 参考訳(メタデータ) (2026-04-28T11:39:20Z) - WebXSkill: Skill Learning for Autonomous Web Agents [104.76374637691212]
WebXSkillは、コードベースのスキルと自然言語ガイダンスのギャップを埋めるフレームワークである。
WebArenaとWebVoyagerでは、WebXSkillはタスク成功率をベースラインで最大9.8と12.9ポイント改善する。
論文 参考訳(メタデータ) (2026-04-14T21:48:15Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning
in Encrypted Traffic Classification [68.19713459228369]
我々は、トランスファーラーニング、メタラーニング、コントラストラーニングを、参照機械学習(ML)ツリーベースおよびモノリシックDLモデルと比較する。
i) 大規模なデータセットを用いて,より一般的な表現を得られること,(ii) コントラスト学習が最良の手法であることを示している。
MLツリーベースでは大きなタスクは処理できないが、学習した表現を再利用することで、小さなタスクにも適合するが、DLメソッドはツリーベースモデルのパフォーマンスにも到達している。
論文 参考訳(メタデータ) (2023-05-21T11:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。