論文の概要: GUITrans2Act: Understanding User Operational Behaviors from Mobile GUI Interactions with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.12817v2
- Date: Fri, 12 Jun 2026 07:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.596532
- Title: GUITrans2Act: Understanding User Operational Behaviors from Mobile GUI Interactions with Vision-Language Models
- Title(参考訳): GUITrans2Act:視覚言語モデルを用いたモバイルGUIインタラクションによるユーザ操作動作の理解
- Authors: Yudong Zhang, Lei Hu, Daoyang Liu, Jiawei Liu, Yangfan Luo, Zhilin Gao, Zuojian Wang,
- Abstract要約: Teach VLMは、モバイル画面の軌跡をステップワイドな操作知識に変換するために設計されたコアモデルである。
本稿では,Teach VLMをベースとしたTeach-and-Repeatパラダイムを提案する。
- 参考スコア(独自算出の注目度): 17.834853391238035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the digital world on mobile devices is shifting from static UI perception to dynamic action comprehension. This capability enables models to convert visual state transitions into operational knowledge, defined as short natural-language sentences that describe action types, target UI elements, textual arguments, and execution orders. However, due to the highly diverse and heterogeneous UI designs across applications, existing vision-language models (VLMs) struggle to accurately infer these underlying operations. To bridge this gap, we introduce Teach VLM, a core model designed to translate mobile screen trajectories into step-wise operational knowledge by extracting and analyzing operation-related keyframes from demonstration videos. To address the scarcity of aligned training data, we develop a systematic data flywheel for scalable data acquisition. We further introduce a novel Chinese Mobile Screen Teach Benchmark for fine-grained evaluation. Building upon Teach VLM, we propose the Teach-and-Repeat paradigm, where the generated operational knowledge serves as an interpretable procedural reference to guide downstream screen-based execution agents. Extensive evaluations demonstrate that Teach VLM significantly outperforms strong VLM baselines, achieving state-of-the-art performance in operation semantics prediction. Furthermore, experiments in Android World show that our paradigm yields consistent Task Success Rate improvements for downstream agents. Together, Teach VLM and the Teach-and-Repeat paradigm offer a practical pathway from raw demonstrations to reusable task automation.
- Abstract(参考訳): モバイルデバイス上のデジタル世界を理解することは、静的UI認識から動的アクション理解へとシフトしている。
この機能は、アクションタイプ、ターゲットUI要素、テキスト引数、実行順序を記述した短い自然言語文として定義された、視覚状態遷移を運用知識に変換することができる。
しかし、アプリケーション間で非常に多様で異種なUI設計のため、既存の視覚言語モデル(VLM)はこれらの基礎となる操作を正確に推測するのに苦労している。
このギャップを埋めるために、デモビデオから操作関連キーフレームを抽出し分析することにより、モバイル画面軌跡を段階的に操作知識に変換するように設計されたコアモデルであるTeach VLMを紹介した。
整列学習データの不足に対処するため,スケーラブルなデータ取得のための系統的なデータフライホイールを開発した。
さらに,粒度評価のための新しい中国版モバイルスクリーンTeachベンチマークを導入する。
そこで我々は,Teach-and-Repeatパラダイム(Teach-and-Repeatパラダイム)を提案する。
Teach VLM は強い VLM ベースラインを著しく上回り,操作意味論予測における最先端性能を実現している。
さらに、Android Worldの実験では、我々のパラダイムがダウンストリームエージェントに対して一貫したタスク成功率の改善をもたらすことが示されている。
Teach VLMとTeach-and-Repeatのパラダイムは、生のデモから再利用可能なタスク自動化への実践的なパスを提供する。
関連論文リスト
- Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文 参考訳(メタデータ) (2025-10-06T10:29:00Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought [41.72701516732208]
大規模生成言語と視覚言語モデル(LLMとVLM)は、数ショットの学習では優れているが、高品質な実演を必要とする。
In-Context Abstraction Learning (ICAL) を提案し、VLMエージェントが最適な軌道を高品質な訓練データに変換することを可能にする。
論文 参考訳(メタデータ) (2024-06-20T17:45:02Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。