論文の概要: VISTA: View-Consistent Self-Verified Training for GUI Grounding
- arxiv url: http://arxiv.org/abs/2606.14579v1
- Date: Fri, 12 Jun 2026 15:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.971064
- Title: VISTA: View-Consistent Self-Verified Training for GUI Grounding
- Title(参考訳): VISTA:GUI接地のためのビューレス自己検証トレーニング
- Authors: Xinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu,
- Abstract要約: VISTAはGRPOベースのトレーニングフレームワークで、同一GUIインスタンスの複数のターゲット保存ビューから各比較グループを構築する。
強化学習を非条件模倣に変換することなく、短時間の座標生成を安定化する。
5つのGUIグラウンドベンチマークと複数のQwenバックボーンのグラウンド精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 45.35127211485159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When applying Group Relative Policy Optimization (GRPO) for GUI Grounding, rollouts are sampled from a single screenshot view; groups often become either all failures on difficult instances or all successes on easy ones, yielding no useful relative advantage. We propose VISTA (View-Consistent Self-Verified Training), a GRPO-based training framework that constructs each comparison group from multiple target-preserving views of the same GUI instance.Each view is generated by a crop that keeps the target element visible and remaps its box exactly, so model rollouts are compared across semantically equivalent but geometrically different inputs. To stabilize short coordinate generation without turning reinforcement learning into unconditional imitation, VISTA further adds a self-verified cross-view anchor: an oracle answer optimized with an advantage-weighted loss, excluded from the group baseline and activated only when the model has produced a maximum-reward rollout. Across five GUI-grounding benchmarks and multiple Qwen backbones, VISTA consistently improves grounding accuracy.On ScreenSpot-Pro, it raises Qwen3-VL 4B/8B/30B-A3B from 55.5/52.7/53.7 to 63.4/65.8/67.0. Robustness analyses further show higher worst-view accuracy and lower prediction flip rates.
- Abstract(参考訳): GUIグラウンディングにグループ相対ポリシー最適化(GRPO)を適用する場合、ロールアウトは単一のスクリーンショットビューからサンプリングされる。
GRPOベースのトレーニングフレームワークであるVISTA(View-Consistent Self-Verified Training)を提案し、同一GUIインスタンスの複数のターゲット保存ビューから各比較グループを構築する。
強化学習を無条件の模倣に変えることなく短時間の座標生成を安定化させるため、VISTAはさらに自己検証されたクロスビューアンカーを付加する:有利な損失に最適化されたオラクル応答をグループベースラインから除外し、モデルが最大リワードロールアウトを生成した場合にのみ活性化する。
VISTAは5つのGUIグラウンドベンチマークと複数のQwenバックボーンで一貫してグラウンド精度を改善し、ScreenSpot-ProではQwen3-VL 4B/8B/30B-A3Bを55.5/52.7/53.7から63.4/65.8/67.0に引き上げている。
ロバストネス解析により、最悪のビューの精度が向上し、予測フリップ率が低下する。
関連論文リスト
- Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - WinDeskGround: A Benchmark for Robust GUI Grounding in Complex Multi-Window Desktop Environments [49.98994180610182]
MLLM (Multimodal Large Language Models) はGUIの自動化に革命をもたらしたが、その効果は理想化された単一層インタフェースでほぼ確立されている。
本稿では,最先端のエージェントが現実のデスクトップ環境において,異なる課題に直面しているという,重要な信頼性ギャップを明らかにする。
我々はGUI基盤の堅牢性を評価するための新しいベンチマークと合成フレームワークであるWinDeskGroundを紹介する。
論文 参考訳(メタデータ) (2026-05-13T02:48:52Z) - Covering Human Action Space for Computer Use: Data Synthesis and Benchmark [59.01879944842542]
コンピュータ利用エージェント(CUA)は、GPT-5.4とClaudeによって説明されているように、画面上での作業を自動化する。
しかし、複雑な低周波相互作用に対する信頼性はまだ貧弱であり、ユーザの信頼を制限している。
複雑な相互作用におけるモデルの能力を評価するための新しいベンチマークCUActSpotを提案する。
論文 参考訳(メタデータ) (2026-05-12T17:59:58Z) - Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。