論文の概要: VisCritic: Visual State Comparison as Process Reward for GUI Agents
- arxiv url: http://arxiv.org/abs/2606.24525v1
- Date: Tue, 23 Jun 2026 12:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.960534
- Title: VisCritic: Visual State Comparison as Process Reward for GUI Agents
- Title(参考訳): VisCritic: GUIエージェントのプロセスリワードとしてのビジュアルステート比較
- Authors: Jiachen Qian,
- Abstract要約: 本稿では,前アクションと後アクションのスクリーンショットを直接比較することによってアクションを検証する視覚プロセス報酬フレームワークであるVisCriticを紹介する。
VisCriticは、変化を認識した表現を抽出するためにシームズ・ビジョン・トランスフォーマーを使用し、Action-Aware Critic Headと組み合わせている。
実験とオフライン分析により、VisCriticは多様なGUIエージェントのプラグイン・アンド・プレイ・エンハンスメントとして機能することが示された。
- 参考スコア(独自算出の注目度): 1.0998907972211756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI agents powered by vision-language models show strong potential for automating digital tasks, yet frequently fail in long-horizon scenarios due to the absence of step-level verification. Existing process reward models verify actions through textual reasoning alone, missing the visual nature of GUI state changes. We introduce VisCritic, a visual process reward framework that verifies agent actions by directly comparing pre-action and post-action screenshots in visual feature space. VisCritic employs a Siamese vision transformer to extract change-aware representations, coupled with an Action-Aware Critic Head that jointly evaluates action success, task progress, and error type. A critic-training data construction pipeline generates weakly supervised samples from existing trajectories without additional human labels for critic training. Experiments and offline analyses across five benchmarks demonstrate that VisCritic serves as a plug-and-play enhancement for diverse GUI agents, generally improving benchmark metrics while providing visual diagnostic cues.
- Abstract(参考訳): 視覚言語モデルを利用したGUIエージェントは、デジタルタスクの自動化に強い可能性を示すが、ステップレベルの検証がないため、長期のシナリオでは頻繁に失敗する。
既存のプロセス報酬モデルは、GUI状態の変化の視覚的性質を欠いた、テキスト推論だけでアクションを検証する。
視覚的特徴空間における前アクションと後アクションのスクリーンショットを直接比較することにより、エージェントアクションを検証するビジュアルプロセス報酬フレームワークであるVisCriticを紹介する。
VisCriticは、変化を認識した表現を抽出するために、シームズ・ビジョン・トランスフォーマーを使用し、アクションの成功、タスクの進捗、エラータイプを共同で評価するAction-Aware Critic Headと組み合わせている。
批判訓練データ構築パイプラインは、批判訓練のための追加の人間ラベルなしで、既存の軌跡から弱い教師付きサンプルを生成する。
5つのベンチマークの実験とオフライン分析は、VisCriticが多様なGUIエージェントのプラグインとプレイの強化として機能し、一般的にはベンチマークメトリクスを改善しながら、視覚的な診断手段を提供していることを示している。
関連論文リスト
- A History-Aware Visually Grounded Critic for Computer Use Agents [70.50900668601969]
HiViGは、実際のGUIトラジェクトリで訓練されたマルチモーダル批評家を中心に構築されたテストタイムフレームワークである。
テスト時には、HiViGは批判者をポリシー決定ループに統合し、マクロアクション履歴を提供する。
Visually Grounded critiqueは、現在のスクリーンショットに対する生の実行座標を検証して、実行前にエラーをインターセプトする。
論文 参考訳(メタデータ) (2026-06-09T16:39:10Z) - GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。
GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文 参考訳(メタデータ) (2026-02-09T18:52:02Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。
VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T07:36:54Z) - GAIA: A Data Flywheel System for Training GUI Test-Time Scaling Critic Models [18.14416135619429]
本稿では,モデルに反復的批判機能を持たせるためのトレーニングフレームワークであるGUI Action Critic's Data Flywheel System (GAIA)を提案する。
具体的には、ベースエージェントからの正および負のアクション例を用いて直観的批判モデル(ICM)を訓練する。
我々は様々なデータセットの実験を行い、提案したICMが様々なクローズドソースおよびオープンソースモデルの試験時間性能を向上させることを実証する。
論文 参考訳(メタデータ) (2026-01-26T06:29:41Z) - GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:47:19Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。