論文の概要: StepGuard: Guarding Web Navigation via Single-Step Calibration
- arxiv url: http://arxiv.org/abs/2606.17871v1
- Date: Tue, 16 Jun 2026 12:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.434415
- Title: StepGuard: Guarding Web Navigation via Single-Step Calibration
- Title(参考訳): StepGuard: シングルステップキャリブレーションによるWebナビゲーションのガード
- Authors: Zhihao Cui, Yuchen Zhang, Xiyang Sun, Yaxiong Wang, Li Zhu, Jinpeng Hu, Liu Liu, Mengjia Li, Yujiao Wu,
- Abstract要約: Webナビゲーションでは、エージェントは自然言語の目標をフォローし、Webページと対話し、正確な回答を生成する必要がある。
既存の手法はまだ、報酬のミスアライメントとエラーの伝播による単一ステップの脆弱さに悩まされている。
本稿では,探索のためのナビゲーションファーストモードと質問応答のための回答ファーストモードとを切り替える動的双対最適化(DDPO)を提案する。
我々の手法はナビゲーションと回答の精度を大幅に改善し、標準的なWebナビゲーションベンチマークに最先端のパフォーマンスを新たに設定する。
- 参考スコア(独自算出の注目度): 19.090629054043447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web navigation requires agents to follow natural language goals, interact with web pages, and produce accurate answers. While recent advances leverage vision-language models and reinforcement learning, existing methods still suffer from single-step fragility due to reward misalignment and error propagation. To tackle the reward entanglement, we design Dynamic Dual-Policy Optimization (DDPO), which dynamically switches between a navigation-first mode for exploration and an answer-first mode for question-answering to mitigate reward conflict. To calibrate the single-step error, we propose Confidence-Guided Adaptive Navigation Reflection (CANR), a mechanism that estimates per-step confidence, triggers reflection only when necessary, and uses contrastive rewards to encourage self-correction to calibrate the single-step inaccuracy. With the above as the main components, we finally develop our StepGuard, a new framework of Guarding Web Navigation via Single-Step Calibration. Experiments demonstrate that our approach significantly improves navigation and answer accuracy, setting new state-of-the-art performance on standard web navigation benchmarks.
- Abstract(参考訳): Webナビゲーションでは、エージェントは自然言語の目標をフォローし、Webページと対話し、正確な回答を生成する必要がある。
近年の進歩では視覚言語モデルと強化学習が活用されているが、既存の手法は報酬の誤りや誤りの伝播による単一ステップの脆弱さに悩まされている。
報酬の絡み合いに対処するため,探索用ナビゲーションファーストモードと質問応答用回答ファーストモードとを動的に切り替えて報酬競合を緩和する動的双対最適化(DDPO)を設計した。
単一ステップ誤差を補正するために, 信頼誘導適応航法反射法(CANR)を提案する。これは, ステップ毎の信頼度を推定し, 必要なときにのみ反射を誘発する機構であり, 自己補正を奨励し, 単一ステップの不正確さを補正する。
上記のコンポーネントを主要コンポーネントとして、SteepGuardという、シングルステップ校正によるWebナビゲーションの新たなフレームワークを開発しました。
実験により,本手法はナビゲーションと回答の精度を大幅に向上し,標準的なWebナビゲーションベンチマークに最先端の性能を新たに設定することを示した。
関連論文リスト
- VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - REASAN: Learning Reactive Safe Navigation for Legged Robots [3.0268879088436496]
複雑な動的環境における脚付きリアクティブナビゲーションのための新しいモジュール化されたエンドツーエンドフレームワークを提案する。
3つの強化学習(RL)ポリシーで、移動、安全遮蔽、ナビゲーション、およびトランスフォーマーをベースとした外部受容推定器を備える。
結果として生じるリアクティブセーフナビゲーション(REASAN)システムは、シングルボットとマルチボットの両方で完全にオンボードおよびリアルタイムのリアクティブナビゲーションを実現する。
論文 参考訳(メタデータ) (2025-12-10T11:23:32Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。