論文の概要: GUI-AC: Enhancing Continual Learning in GUI Agents
- arxiv url: http://arxiv.org/abs/2606.10522v1
- Date: Tue, 09 Jun 2026 07:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.374204
- Title: GUI-AC: Enhancing Continual Learning in GUI Agents
- Title(参考訳): GUI-AC: GUIエージェントの継続的な学習を促進する
- Authors: Can Lin, Tao Feng, Hangjie Yuan, Dan Zhang, Yifan Zhu, Zhonghong Ou,
- Abstract要約: 補強微細調整(RFT)はその接地能力において顕著な不安定性を示す。
GUIエージェントの連続学習能力を向上するGUI-ACを提案する。
- 参考スコア(独自算出の注目度): 20.919614781710468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interfaces (GUIs) serve as the dominant medium for human-computer interaction, yet building GUI agents that generalize across the vast diversity of real-world interface environments, with the same flexibility and robustness that humans naturally exhibit, remains unsolved. Notably, GUI data are inherently non-stationary: the continual emergence of previously unseen interface instances (e.g., novel domains and resolutions) induces persistent distribution shifts, significantly impeding the continual learning of existing GUI agents. Reinforcement fine-tuning (RFT) has attracted considerable attention as a promising approach. Nevertheless, RFT exhibits pronounced instability in its grounding capability, manifested as sharp reward discontinuities and high-variance oscillations. The imbalanced distribution of rollout outcomes introduces substantial noise into advantage estimation, leading to policy overconfidence. The fixed clipping bound suppresses the increase in policy probabilities needed to adapt to new distributions, leading to a collapse in exploration capacity. To address these challenges, we propose GUI-AC, a method that enhances the continual learning capability of GUI agents. GUI-AC introduces grounding certainty to support two core mechanisms: (i) Adaptive Advantage, which down-weights noisy advantage estimates to prevent policy overconfidence; and (ii) Dynamic Clipping, which relaxes the clipping bound to encourage exploration range. Extensive experiments show that these mechanisms jointly improve performance, enabling our method to surpass state-of-the-art baselines. Code is available anonymously at https://anonymous.4open.science/r/GUI-AC.
- Abstract(参考訳): グラフィカル・ユーザ・インタフェース(GUI)は、人間とコンピュータのインタラクションにおいて支配的な媒体であるが、人間が自然に提示する柔軟性と堅牢さを兼ね備えた、現実世界のインターフェース環境の幅広い多様性を一般化するGUIエージェントの構築は未解決のままである。
特に、GUIデータは本質的に非定常的であり、以前は目に見えないインターフェースインスタンス(例えば、新しいドメインや解像度)の連続的な出現は、永続的な分散シフトを誘発し、既存のGUIエージェントの継続的な学習を著しく阻害する。
強化微調整(RFT)は有望なアプローチとして注目されている。
にもかかわらず、RFTはその接地能力において顕著な不安定性を示し、鋭い報酬の不連続性と高分散振動として表される。
ロールアウト結果の不均衡分布は、かなりのノイズを利点推定に導入し、政策の過信につながる。
固定クリッピング境界は、新しい分布に適応するために必要な政策確率の増加を抑制し、探査能力の崩壊につながる。
これらの課題に対処するため,GUIエージェントの継続的な学習能力を高めるGUI-ACを提案する。
GUI-ACが2つのコアメカニズムをサポートするための基盤的確実性を導入
一 政策過信を防ぐために見積を有利に活用する適応アドバンテージ
(ii)ダイナミッククリッピング(Dynamic Clipping)は、探索範囲を奨励するためにクリッピングを緩和する。
実験の結果,これらのメカニズムは共同で性能を向上し,その手法が最先端のベースラインを超越できることが判明した。
コードはhttps://anonymous.4open.science/r/GUI-ACで公開されている。
関連論文リスト
- GUI Agents with Reinforcement Learning: Toward Digital Inhabitants [21.438394192355407]
本稿では RL と GUI エージェントの交点について概観する。
既存の手法をオフラインRL,オンラインRL,ハイブリッド戦略に整理する原則的分類法を提案する。
これらの知見を,プロセス報酬,継続RL,認知アーキテクチャ,安全なデプロイメントといったロードマップに要約する。
論文 参考訳(メタデータ) (2026-04-30T14:51:49Z) - CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning [67.78566256784404]
Supervised Fine-Tuning (SFT) は高速な適応を可能にし、しばしば知識のオーバーライトを引き起こす。
強化学習(RL)は、事前の相互作用ロジックを消去から保護する固有のレジリエンスを示す。
textbfContinual textbfGUI textbfLearningフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:02:20Z) - Continual GUI Agents [47.8647377763217]
これはGUIエージェントがシフトしたドメインと解像度の下で連続的な学習を行うのに必要な新しいタスクである。
既存のメソッドは、UIインタラクションポイントとフラックスシナリオのリージョンの多様性のため、GUIディストリビューションが時間とともに変化するため、安定した基盤を維持することができません。
本稿では2つの新しい報酬を通じて連続的な学習を安定化する新しい強化微調整フレームワークであるGUI-AiF(GUI-AiF)について紹介する。
論文 参考訳(メタデータ) (2026-01-28T16:06:31Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。