Fugu-MT 論文翻訳(概要): StepGuard: Guarding Web Navigation via Single-Step Calibration

論文の概要: StepGuard: Guarding Web Navigation via Single-Step Calibration

arxiv url: http://arxiv.org/abs/2606.17871v1
Date: Tue, 16 Jun 2026 12:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.434415
Title: StepGuard: Guarding Web Navigation via Single-Step Calibration
Title（参考訳）: StepGuard: シングルステップキャリブレーションによるWebナビゲーションのガード
Authors: Zhihao Cui, Yuchen Zhang, Xiyang Sun, Yaxiong Wang, Li Zhu, Jinpeng Hu, Liu Liu, Mengjia Li, Yujiao Wu,
Abstract要約: Webナビゲーションでは、エージェントは自然言語の目標をフォローし、Webページと対話し、正確な回答を生成する必要がある。既存の手法はまだ、報酬のミスアライメントとエラーの伝播による単一ステップの脆弱さに悩まされている。本稿では,探索のためのナビゲーションファーストモードと質問応答のための回答ファーストモードとを切り替える動的双対最適化(DDPO)を提案する。我々の手法はナビゲーションと回答の精度を大幅に改善し、標準的なWebナビゲーションベンチマークに最先端のパフォーマンスを新たに設定する。
参考スコア（独自算出の注目度）: 19.090629054043447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Web navigation requires agents to follow natural language goals, interact with web pages, and produce accurate answers. While recent advances leverage vision-language models and reinforcement learning, existing methods still suffer from single-step fragility due to reward misalignment and error propagation. To tackle the reward entanglement, we design Dynamic Dual-Policy Optimization (DDPO), which dynamically switches between a navigation-first mode for exploration and an answer-first mode for question-answering to mitigate reward conflict. To calibrate the single-step error, we propose Confidence-Guided Adaptive Navigation Reflection (CANR), a mechanism that estimates per-step confidence, triggers reflection only when necessary, and uses contrastive rewards to encourage self-correction to calibrate the single-step inaccuracy. With the above as the main components, we finally develop our StepGuard, a new framework of Guarding Web Navigation via Single-Step Calibration. Experiments demonstrate that our approach significantly improves navigation and answer accuracy, setting new state-of-the-art performance on standard web navigation benchmarks.
Abstract（参考訳）: Webナビゲーションでは、エージェントは自然言語の目標をフォローし、Webページと対話し、正確な回答を生成する必要がある。近年の進歩では視覚言語モデルと強化学習が活用されているが、既存の手法は報酬の誤りや誤りの伝播による単一ステップの脆弱さに悩まされている。報酬の絡み合いに対処するため,探索用ナビゲーションファーストモードと質問応答用回答ファーストモードとを動的に切り替えて報酬競合を緩和する動的双対最適化(DDPO)を設計した。単一ステップ誤差を補正するために, 信頼誘導適応航法反射法(CANR)を提案する。これは, ステップ毎の信頼度を推定し, 必要なときにのみ反射を誘発する機構であり, 自己補正を奨励し, 単一ステップの不正確さを補正する。上記のコンポーネントを主要コンポーネントとして、SteepGuardという、シングルステップ校正によるWebナビゲーションの新たなフレームワークを開発しました。実験により,本手法はナビゲーションと回答の精度を大幅に向上し,標準的なWebナビゲーションベンチマークに最先端の性能を新たに設定することを示した。

論文の概要: StepGuard: Guarding Web Navigation via Single-Step Calibration

関連論文リスト