論文の概要: Skill-Guided Continuation Distillation for GUI Agents
- arxiv url: http://arxiv.org/abs/2606.18890v1
- Date: Wed, 17 Jun 2026 10:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.111294
- Title: Skill-Guided Continuation Distillation for GUI Agents
- Title(参考訳): GUIエージェントのスキルガイド連続蒸留
- Authors: Zhimin Fan, Hongwei Yu, Yeqing Shen, Haolong Yan, Guozhen Peng, Tianhao Peng, Yudong Zhang, Xiaowen Zhang, Kaijun Tan, Zheng Ge, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 本稿では,反復型自己改善フレームワークであるスキルガイド型継続蒸留(SGCD)を提案する。
継続は成功し、専門家の軌道と混ざり合い、政策によって引き起こされる軌道外の状態を監督する。
OSWorld-Verifiedでは、SGCDは3つのベースモデルの成功率を低30%から50%以上に改善し、その有効性と汎用性を示している。
- 参考スコア(独自算出の注目度): 43.10878988389251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving GUI agents typically relies on behavior cloning on expert trajectories. However, as the current policy deviates from the expert policy, it inevitably encounters policy-induced off-trajectory states during closed-loop execution, i.e., states that fall outside the expert trajectories. Since expert trajectories provide no demonstrations for these unseen states, such states receive no effective supervision, leaving the policy unable to select the correct action. To close this supervision gap, we propose Skill-Guided Continuation Distillation (SGCD), an iterative self-improvement framework. SGCD first runs the plain policy without skill guidance for a few steps to reach realistic off-trajectory states. From these states, a skill-guided policy then completes the task and produces successful continuations, which are mixed with expert trajectories to supply supervision over policy-induced off-trajectory states. The skills are extracted from both successful and failed rollouts, consisting of Continuation Plans, Critical Targets, Failure Traps, and Success Criteria. On OSWorld-Verified, SGCD improves the success rate of three base models from the low-30\% range to over 50\%, demonstrating its effectiveness and generality.
- Abstract(参考訳): GUIエージェントの改善は、通常、専門家の軌跡による振る舞いのクローンに依存する。
しかし、現在の政策は専門家の方針から逸脱しているため、クローズドループ実行中に政策によって引き起こされる軌道外状態、すなわち専門家の軌道外にある状態に必然的に遭遇する。
専門家の軌道はこれらの見知らぬ州に対するデモンストレーションを提供しないので、これらの州は効果的な監督を受けておらず、政策は正しい行動を選択することができない。
そこで我々は,SGCD(Skill-Guided Continuation Distillation)を提案する。
SGCDはまず、現実的な軌道外状態に到達するためのいくつかのステップのために、スキルガイダンスなしでプレーンなポリシーを実行します。
これらの状態から、熟練した政策がタスクを完了し、成功し、専門家の軌道と混ざり合い、政策によって引き起こされる軌道外の状態を監督する。
これらのスキルは、継続計画、臨界目標、失敗トラップ、成功基準からなる成功と失敗の両方から抽出される。
OSWorld-Verifiedでは、SGCDは3つのベースモデルの成功率を低30%から50パーセント以上に改善し、その有効性と汎用性を示している。
関連論文リスト
- PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation [38.43792325467372]
既存のアプローチでは、トレーニング中に早期に安全を課すか、テスト時に外部ガードレールを介して反応する。
本研究では,制約可能な領域に事前の拡散政策を立案する自己進化型ポストトレーニングフレームワークである,制約付き軌道の物理安全アライメント(PACT)を提案する。
シミュレーションおよび実世界の実施された操作ベンチマークでは、PACTは安全性違反を平均で31.0%削減し、タスク成功を30.7%改善した。
論文 参考訳(メタデータ) (2026-06-07T02:27:53Z) - On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution [14.412476605788482]
エージェントは受動的推論システムから、ツールやロボット、物理的環境と相互作用するアクティブエグゼクタへと進化している。
既存のアプローチでは、エージェントループ内に安全性とリカバリが組み込まれているため、実行制御の標準化、監査、適応が困難になる。
本稿では,エージェント認知と実行監視を分離する,ポリシー制約付き実行のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-09T05:35:08Z) - ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors [23.712657768774818]
ExpertGenは、スケーラブルなsim-to-real転送を可能にするために、シミュレーションで専門家のポリシー学習を自動化するフレームワークである。
工業組み立て作業では、ExpertGenは90.5%の全体的な成功率を達成し、長期操作タスクでは85%の総成功を達成する。
論文 参考訳(メタデータ) (2026-03-16T22:12:48Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。