論文の概要: Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?
- arxiv url: http://arxiv.org/abs/2606.19388v1
- Date: Tue, 16 Jun 2026 02:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.436367
- Title: Beyond the GUI Paradigm: Do Mobile Agents Need the Phone Screen?
- Title(参考訳): GUIのパラダイムを超えて:モバイルエージェントは電話画面を必要とするか?
- Authors: Li Gu, Zihuan Jiang, Linqiang Guo, Zhixiang Chi, Ziqiang Wang, Huan Liu, Yuanhao Yu, Tse-Hsun Chen, Yang Wang,
- Abstract要約: モバイルプラットフォームは、デバイスサービスとデータへの直接アクセスを提供するコマンドラインインターフェース(CLI)を公開する。
AndroidWorldとMobileWorldの4つのモデルAPIにまたがる3つのコーディングエージェントを,モバイル固有のポストトレーニングなしで評価する。
私たちは、AndroidWorld(103/116タスクCLI解決可能)で88.8%、MobileWorld(101/117タスクCLI解決可能)で86.3%に達するオラクルCLIソリューションを提供しています。
モバイルCLIエージェントに関する将来の研究をサポートするため、エージェントの実装、オラクルソリューション、CLI-Advantageスイート、評価インフラストラクチャをオープンにします。
- 参考スコア(独自算出の注目度): 23.855513024800526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in mobile agents are dominated by the GUI paradigm, in which agents perceive UI information and emit screen interactions. However, mobile platforms also expose a command-line interface (CLI) that provides direct access to device services and data. We argue CLI deserves first-class consideration alongside GUI. We evaluate three coding agents (Claude Code, Terminus-2, mini-swe-agent) across four model APIs on AndroidWorld and MobileWorld without any mobile-specific post-training, comparing against three reproducible GUI baselines (GUI-Owl-1.5-32B, MAI-UI, Qwen3-VL-32B). Claude Code (Opus 4.7) reaches 71.8\% and 51.9\%, outperforming every reproducible GUI baseline (69.3/68.1/57.8\% on AndroidWorld; 43.2/26.3/13.3\% on MobileWorld), while every other CLI configuration remains competitive. To establish the paradigm's ceiling, we provide oracle CLI solutions that reach 88.8\% on AndroidWorld (103/116 tasks CLI-solvable) and 86.3\% on MobileWorld (101/117 tasks CLI-solvable), indicating substantial room for future improvement. To cover everyday user intents beyond the GUI scope, we introduce the \textbf{CLI-Advantage Task Suite}, comprising 45 templates across five categories: bulk operations, multi-condition filtering, aggregation, cross-app workflows, and hidden device state. Every CLI agent outperforms every GUI baseline in all five categories, with substantially fewer steps per task (10.7 vs.\ 18.6). To support future research on mobile CLI agents, we will open-source agent implementations, oracle solutions, the CLI-Advantage suite, and evaluation infrastructure.
- Abstract(参考訳): モバイルエージェントの最近の進歩はGUIパラダイムによって支配されており、エージェントはUI情報を認識し、スクリーンインタラクションを発行する。
しかし、モバイルプラットフォームはまた、デバイスサービスやデータに直接アクセスするコマンドラインインターフェース(CLI)も公開している。
CLIはGUIとともに第一級に考慮すべきである、と私たちは主張する。
Claude Code,Terminus-2, mini-swe-agent) を AndroidWorld と MobileWorld の4つのモデル API に対して,再現可能な GUI ベースライン (GUI-Owl-1.5-32B, MAI-UI, Qwen3-VL-32B) と比較した。
Claude Code (Opus 4.7) は 71.8\% と 51.9\% に達し、再現可能なすべての GUI ベースライン (AndroidWorld では69.3/68.1/57.8\%、MobileWorld では43.2/26.3/13.3\%) を上回っている。
パラダイムの天井を確立するために、AndroidWorld(103/116タスクCLI解決可能)で88.8\%、MobileWorld(101/117タスクCLI解決可能)で86.3\%に達するオラクルCLIソリューションを提供しています。
GUIの範囲を超えて日常的なユーザ意図をカバーするために、バルク操作、マルチコンディションフィルタリング、アグリゲーション、クロスアプリワークフロー、隠れデバイス状態という5つのカテゴリにまたがる45のテンプレートを含む、‘textbf{CLI-Advantage Task Suite}’を紹介します。
すべてのCLIエージェントは5つのカテゴリですべてのGUIベースラインを上回り、タスク毎のステップ(10.7対10.7)はかなり少ない。
18.6)。
モバイルCLIエージェントに関する将来の研究をサポートするため、エージェントの実装、オラクルソリューション、CLI-Advantageスイート、評価インフラストラクチャをオープンソースにします。
関連論文リスト
- ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents [54.04035382782041]
textbfClawGUI-RLは、並列仮想環境と実際の物理デバイスの両方をサポートする最初のオープンソースのGUIエージェントRLインフラストラクチャを提供する。
textbfClawGUI-Evalは6つのベンチマークと11以上のモデルで完全に標準化された評価パイプラインを実行する。
textbfClawGUI-Agentは、12以上のチャットプラットフォームを通じて、Android、HarmonyOS、iOSにトレーニングされたエージェントを提供し、ハイブリッドCLI-GUIコントロールとパーソナライズされたパーソナライズされたメモリを提供する。
論文 参考訳(メタデータ) (2026-04-13T17:52:04Z) - Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents [56.72789202127874]
この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。
クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。
オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2026-02-15T01:52:19Z) - MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.46555542782679]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (2025-12-26T14:51:52Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [47.98821056800437]
クロスプラットフォームなモバイルGUIナビゲーションのためのデータセットであるGUIOdysseyを提示する。
GuiOdysseyは8,334エピソードで構成され、平均15.3ステップで6つのモバイルデバイス、212の異なるアプリ、1,357のアプリの組み合わせをカバーしている。
我々は,履歴リサンプラーモジュールを備えた長期横断ナビゲーションのための探索的マルチモーダルエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。