Fugu-MT 論文翻訳(概要): StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

論文の概要: StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

arxiv url: http://arxiv.org/abs/2606.07027v2
Date: Fri, 12 Jun 2026 07:28:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 13:53:03.402752
Title: StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents
Title（参考訳）: StainFlow: GUIエージェントのプロセスリワードに対するエンティティスタントトラッキングとエビデンスリンク
Authors: Haojie Hao, Longkun Hao, Yihang Lou, Yan Bai, Zhenyang Li, Zhichao Yang, Dongshuo Huang, Hongyu Lin, Lanqing Hong, Jiakai Wang, Xianglong Liu,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、長期のデジタル環境においてGUIエージェントを改善するための有望なアプローチである。この問題を軽減するため、最近の研究はプロセス・リワード・モデル(PRM)を導入している。 PRMは、グローバルマイルストーン検証やローカルステップレベルの評価を通じて、よりきめ細かいトレーニングフィードバックを提供する。本稿では,GUIエージェントのためのエンティティ・スタンフロープロセス報酬モデルであるStainFlowを提案する。
参考スコア（独自算出の注目度）: 67.03593791535786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) has become a promising approach for improving GUI Agents in long-horizon, stochastic digital environments, but trajectory-level success feedback is too sparse to provide reliable credit assignment for intermediate exploration steps. To mitigate this issue, recent studies introduce Process Reward Models (PRMs), which provide finer-grained training feedback through global milestone verification or local step-level evaluation. However, these methods still suffer from two level-specific limitations: global milestone decomposition is subjective and singular, making it difficult to accommodate the multiple valid execution paths in real GUI tasks, while fixed local judging windows may miss long-range key evidence or dilute the decision signal with irrelevant frames. Inspired by stain-tracing mechanisms in network flow analysis, we propose StainFlow, an entity-stain-flow process reward model for GUI Agents. To reduce the subjectivity of global partitioning, we introduce the Global Entity Stain Tracking module, which extracts visually verifiable task entities and tracks how their stain concentrations and states evolve along the trajectory, allowing task phases to be objectively separated by changes in the entity evidence flow. To improve the accuracy of local verification, we introduce the Local Stain Evidence Linking module. Centered on the triggering entities of each candidate key node, it retrieves relevant steps based on their stain concentrations and state changes, and dynamically constructs high-density evidence windows for verifying true key nodes. Extensive experiments on AndroidWorld and OGRBench show that StainFlow relatively improves online RL success by 3.2% and trajectory completion judgment accuracy by 1.8%.
Abstract（参考訳）: Reinforcement Learning (RL) は、長期の確率的デジタル環境においてGUIエージェントを改善するための有望なアプローチとなっているが、軌道レベルの成功フィードバックは、中間探索ステップに信頼性の高い信用割当を提供するには小さすぎる。この問題を軽減するため、近年の研究では、グローバルマイルストーン検証やローカルステップレベルの評価を通じて、よりきめ細かいトレーニングフィードバックを提供するProcess Reward Models (PRMs)を導入している。グローバルなマイルストーン分解は主観的で特異であり、複数の有効な実行パスを実際のGUIタスクに適合させることが困難である。ネットワークフロー解析における染色追跡機構に着想を得て,GUIエージェントのためのエンティティ・ステインフロー・プロセス報酬モデルであるStainFlowを提案する。グローバルパーティショニングの主観性を低減するため,グローバルエンティティステイントラッキングモジュールを導入し,視覚的に検証可能なタスクエンティティを抽出し,それらの染色濃度と状態が軌道に沿ってどのように変化するかを追跡することにより,エンティティエビデンスフローの変化によってタスクフェーズを客観的に分離することを可能にする。局所的検証の精度を向上させるため,ローカル・スタント・エビデンス・リンク・モジュールを導入する。各候補キーノードのトリガーエンティティを中心に、それらの染色濃度と状態変化に基づいて関連するステップを検索し、真のキーノードを検証するための高密度エビデンスウィンドウを動的に構築する。 AndroidWorldとOGRBenchの大規模な実験によると、StainFlowはオンラインRLの成功を3.2%改善し、軌道完了判定の精度が1.8%向上した。

関連論文リスト

TIER: Trajectory-Invariant Execution Rewards for Multi-Step Tool Composition [62.56752617853322]
アウトカムベースの報酬はスパースフィードバックのみを提供するが、トラジェクトリによる報酬は注釈付き参照ソリューションに依存している。本稿では,関数スキーマと実行時実行を直接管理する報奨フレームワークであるtrajectory-Invariant Execution Rewardsを提案する。
論文参考訳（メタデータ） (2026-05-16T03:47:26Z)
Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文参考訳（メタデータ） (2026-03-25T18:31:39Z)
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文参考訳（メタデータ） (2026-03-15T16:13:58Z)
Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents [9.505140329883762]
よりリッチな学習信号を提供するジェネレーティブ・リワード・モデル(GRM)を導入する。 GRMには、特定の行動パターンを奨励または阻止するための基準を示す、人間によって設計されたルーリックが備わっている。 SWEタスク上でRFT(Reinforced Fine-Tuning)に使用する場合,本手法は終端スコアのみのリジェクションサンプリングよりも優れる。
論文参考訳（メタデータ） (2026-03-13T02:23:49Z)
GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision [10.62942603434055]
我々は、リモートセンシング推論を検証可能なプロセス教師あり学習へ移行するフレームワークであるGeorを紹介する。トークンレベルのプロセス報酬モデル(PRM)であるGeoPRMをトレーニングします。これらの検証信号を効果的に活用するために,プロセス対応ツリーGRPOを提案する。得られたモデルであるGeor-9Bは、様々なリモートセンシングベンチマークにまたがって最先端のパフォーマンスを統合する。
論文参考訳（メタデータ） (2026-03-10T11:59:05Z)
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL [64.8155693023222]
オープンソースのネイティブGUIエージェントは、長い水平ナビゲーションタスクのクローズドソースシステムに遅れを取っている。このギャップは、高品質でアクション整合性のある推論データが不足していることに起因している。 GUI-Libraは、これらの課題に対処する調整されたトレーニングレシピです。
論文参考訳（メタデータ） (2026-02-25T18:34:57Z)
ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。 OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文参考訳（メタデータ） (2026-02-06T19:55:26Z)
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。 DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文参考訳（メタデータ） (2026-02-02T13:23:39Z)
Agentic Reward Modeling: Verifying GUI Agent via Online Proactive Interaction [7.731207237810125]
VAGENは、対話ツールを備えた検証エージェントを使用して、自律的に検証戦略を計画するフレームワークである。 VAGEN は LLM-as-a-Judge ベースラインと比較して評価精度が有意に向上することを示す。
論文参考訳（メタデータ） (2026-01-31T07:36:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。