論文の概要: When Web Agents Finish but Still Fail: Reproducible Triggers and Trace Diagnostics for Parallel Web Exploration
- arxiv url: http://arxiv.org/abs/2606.20724v1
- Date: Tue, 16 Jun 2026 23:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:32:06.85969
- Title: When Web Agents Finish but Still Fail: Reproducible Triggers and Trace Diagnostics for Parallel Web Exploration
- Title(参考訳): Webエージェントがまだ機能していないとき: 再現可能なトリガーと並列Web探索のためのトレース診断
- Authors: Aagam Sogani, Botao Rui, Swetha Vaidyanathan, Rishi Agarwal, Minghao Yan, Shivaram Venkataraman,
- Abstract要約: ロングホライゾンウェブエージェントは、最終回答評価によって隠された方法で失敗することが多い。
並列Web探索ベンチマークであるParallel WebBenchを用いて,これらの障害について検討した。
我々は, GRPOを用いたWebExplorerスタイルのエージェントを, 人間のみ, バランスの取れたヒト-合成, 合成-重量のデータ混合下で訓練する。
- 参考スコア(独自算出の注目度): 3.4707042810598825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon web agents often fail in ways hidden by final-answer evaluation: they may visit useful pages, produce a well-formed answer, and terminate confidently while still missing fields, over-including unsupported items, or relying on stale evidence. We study these failures with Parallel WebBench, a parallel web-exploration benchmark containing 1,679 verified records: 350 manually curated parallel tasks and 1,329 reconstructed records with verified URL-based trajectories. We train WebExplorer-style agents with GRPO under human-only, balanced human-synthetic, and synthetic-heavy data mixtures. At 16k context and 16 interaction rounds, the best GRPO model improves completion over WebExplorer-8B from 50.7% to 96.0% and GPT-4.1-mini-judged element-wise F1 from 0.2489 to 0.4529, but binary accuracy remains far below completion. Trace-level analysis identifies three persistent failure modes: context-bound search loops, premature termination on partial answers, and synthesis collapse after relevant evidence has already been retrieved. These results show that synthetic-data GRPO reduces abstention and improves partial correctness, but leaves a completion-correctness gap that requires evidence-grounded coverage and synthesis diagnostics.
- Abstract(参考訳): ロングホライゾンのウェブエージェントは、しばしば最終回答評価によって隠された方法で失敗する:彼らは有用なページを訪れ、よくできた回答を出し、まだフィールドが欠けている間に自信を持って終了する。
350の並列処理タスクと1,329の再構成レコードを検証済みのURLベーストラジェクトリで記述した並列Web探索ベンチマークであるParallel WebBenchを用いて,これらの障害について検討した。
我々は, GRPOを用いたWebExplorerスタイルのエージェントを, 人間のみ, バランスの取れたヒト-合成, 合成-重量のデータ混合下で訓練する。
16kのコンテキストと16のインタラクションラウンドでは、最高のGRPOモデルはWebExplorer-8Bの50.7%から96.0%、GPT-4.1-mini-judged要素のF1を0.2489から0.4529まで改善するが、バイナリ精度は依然として未完成のままである。
トレースレベルの分析では、コンテキストバウンド検索ループ、部分回答の早期終了、関連する証拠が既に回収された後に合成崩壊という3つの永続的障害モードが特定されている。
これらの結果から, 合成データGRPOは, 吸収率を低下させ, 部分的正しさを向上させるが, 証拠接地と合成診断を必要とする完全正しさギャップを残していることがわかった。
関連論文リスト
- EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge [53.44952808455985]
EvoBrowseCompは400の英語と400の中国語の複雑な質問のベンチマークである。
EvoBrowseCompは定期的に更新してデータの汚染を防ぐことができる。
自動更新可能でハイディフルトなベンチマークのためのスケーラブルなパラダイムを確立します。
論文 参考訳(メタデータ) (2026-06-11T09:48:32Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend [2.9612444540570113]
診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
論文 参考訳(メタデータ) (2026-04-25T22:10:53Z) - Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline [2.4832413743954618]
本稿では,AI会議要約をインスタンス化した,生成型AIアプリケーションのための再利用可能な評価パイプラインを提案する。
このシステムは、ソースの取り込み、構造化された参照構成、候補生成、構造化されたスコアリング、レポートの5段階にわたるタスク固有のセマンティクスから再利用可能なオーケストレーションを分離する。
オフラインループをCity_council, private_data, whitehouse_press_briefingsにまたがる114のミーティングの型付きデータセットでベンチマークする。
論文 参考訳(メタデータ) (2026-04-23T07:02:11Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis [63.8655724265611]
深層研究エージェントの訓練には、探索、証拠収集、多段階推論をインターリーブする長い水平軌道が必要である。
既存のデータ収集パイプラインは、一般的にプロプライエタリなWeb APIに依存しており、大規模な軌道合成をコストが高く、不安定で、再現が難しい。
再生可能なパイプラインであるOpenResearcherは,複数ターン軌道合成から1回のコーパスブートストラップを分離する。
論文 参考訳(メタデータ) (2026-03-17T20:10:12Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Go-Browse: Training Web Agents with Structured Exploration [49.19468732253614]
本稿では,多彩で現実的なWebエージェントデータを大規模に収集する手法であるGo-Browseを提案する。
Go-Browseはグラフ検索としてデータ収集をフレーミングすることで効率的な探索を実現する。
提案手法をWebArenaベンチマーク上でインスタンス化し,100URLにわたる10Kのタスク解決トラジェクトリと40Kのインタラクションステップのデータセットを収集する。
論文 参考訳(メタデータ) (2025-06-04T03:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。