論文の概要: WebChallenger: A Reliable and Efficient Generalist Web Agent
- arxiv url: http://arxiv.org/abs/2606.10423v1
- Date: Tue, 09 Jun 2026 04:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.328933
- Title: WebChallenger: A Reliable and Efficient Generalist Web Agent
- Title(参考訳): WebChallenger: 信頼性が高く効率的なジェネラリストWebエージェント
- Authors: Jayoo Hwang, Xiaowen Zhang, Vedant Padwal,
- Abstract要約: WebChallengerは、モデルスケールではなくアーキテクチャ設計によるギャップに対処するWebエージェントフレームワークである。
WebArenaでは56.3%,VisualWebArenaでは48.7%,オンラインMind2Webでは51.0%,WorkArenaでは70.9%を達成している。
- 参考スコア(独自算出の注目度): 3.8083338863305882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous web navigation remains challenging for LLM agents, and the strongest generalist systems rely on proprietary reasoning models whose inference cost is prohibitive for the repetitive tasks where such agents would be most useful. We argue this gap stems not from insufficient model capability but from agent architectures that fail to replicate three human cognitive advantages: selective attention to relevant page regions, persistent memory of website structure, and procedural fluency with common interaction patterns. We introduce WebChallenger, a web agent framework that addresses each gap through architecture design rather than model scale, built around PageMem: a structured page representation deterministically constructed from the DOM that exposes each page as a hierarchy of semantic sections with short summaries. On this shared substrate we build three mechanisms that mirror the three cognitive advantages: a divide-and-conquer observation pipeline that lets the agent skim section summaries and extract details only from task-relevant regions; a lightweight exploration and memory system that traverses each website once to build a reusable map of pages and element behaviors; and compound action workflows that collapse common multi-step interactions into single agent actions, handling partial state changes automatically. Because all three operate over PageMem, the framework generalizes across websites without site-specific adapters. Using off-the-shelf open-weight models without fine-tuning, our system achieves 56.3% on WebArena, 48.7% on VisualWebArena, 51.0% on Online-Mind2Web, and 70.9% on WorkArena, approaching frontier proprietary systems at a fraction of the cost. Our code is released at https://github.com/jayoohwang1/webchallenger
- Abstract(参考訳): 自律的なウェブナビゲーションは、LLMエージェントにとって依然として困難であり、最も強力なジェネリストシステムは、そのようなエージェントが最も有用な反復的なタスクに対して推論コストが禁じられるプロプライエタリな推論モデルに依存している。
このギャップは、モデル能力の不足ではなく、関連するページ領域への選択的注意、ウェブサイト構造の永続的記憶、共通の相互作用パターンによる手続き的流布という、3つの人間の認知的優位性を再現できないエージェントアーキテクチャに由来すると我々は主張する。
WebChallengerは、モデルスケールではなくアーキテクチャ設計によるギャップに対処するWebエージェントフレームワークで、PageMemを中心に構築され、DOMから決定的に構築された構造化ページ表現で、各ページを短い要約を含むセマンティックセクションの階層として公開する。
この共有基板上では,3つの認知上のメリットを反映するメカニズムを構築している。エージェントがタスク関連領域のみから,エージェントの要約と詳細の抽出を可能にする分割/参照監視パイプライン,各Webサイトを横断してページと要素の振る舞いを再利用可能なマップを構築する軽量な探索とメモリシステム,一般的なマルチステップインタラクションを単一のエージェントアクションに分解する複合アクションワークフロー,そして部分的な状態変更を自動的に処理する。
3つともPageMem上で動作するため、このフレームワークはサイト固有のアダプタを使わずにWebサイト全体にわたって一般化される。
WebArenaでは56.3%,VisualWebArenaでは48.7%,Online-Mind2Webでは51.0%,WorkArenaでは70.9%,フロンティアプロプライエタリシステムではわずかなコストでアプローチしている。
私たちのコードはhttps://github.com/jayoohwang1/webchallengerでリリースされています。
関連論文リスト
- GTA: Generating Long-Horizon Tasks for Web Agents at Scale [82.43869456830664]
我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
論文 参考訳(メタデータ) (2026-05-28T01:05:50Z) - Skim: Speculative Execution for Fast and Efficient Web Agents [8.47432001892345]
SkimはWebエージェントの投機的実行フレームワークである。
これは、目的を持ったウェブサイトの予測可能な構造を利用する。
Skimは、タスク毎の平均的なコストを1.9倍、レイテンシを33.4%削減する。
論文 参考訳(メタデータ) (2026-05-15T19:12:43Z) - Region4Web: Rethinking Observation Space Granularity for Web Agents [10.39657194669009]
観察は機能領域の粒度、各ページのそれぞれが別々の目的を果たす部分で行うべきだと我々は主張する。
本稿では,AXTreeを階層的な分解とセマンティック抽象化によって機能領域に再構成するフレームワークであるRerea4Webを提案する。
我々は、この領域レベルの観察をアクターエージェントに配信するWeb固有の推論パイプラインであるPageDigestを、ステップ毎に持続するコンパクトなページ単位のダイジェストとして提案する。
論文 参考訳(メタデータ) (2026-05-08T02:11:23Z) - OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents [1.6673034682613495]
我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。
検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。
提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。
WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
論文 参考訳(メタデータ) (2025-04-17T06:16:40Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。