論文の概要: PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions
- arxiv url: http://arxiv.org/abs/2606.14832v1
- Date: Fri, 12 Jun 2026 15:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.265774
- Title: PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions
- Title(参考訳): PhoneHarness: 混合GUI、CLI、ツールアクションによる電話使用エージェントのハーネス
- Authors: Chenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu,
- Abstract要約: PhoneHarnessは、検証可能なモバイル上で電話使用エージェントを研究するための混合アクションベンチマークと実行ハーネスである。
そのベンチマークであるPhoneHarness Benchは、エージェントが観測可能な副作用を持つタスクを完了したかどうかを評価する。
この結果から,信頼度の高い電話の自動化は,視覚的GUI制御だけでなく,動作面のルーティングと検証可能な実行に依存することが示唆された。
- 参考スコア(独自算出の注目度): 73.69976712292683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.
- Abstract(参考訳): 電話エージェントは、次の画面アクションを単に予測するのではなく、実際のモバイルワークフローを完了することがますます期待されている。
しかし、現在のモバイルエージェントの文献の多くは、エージェントを主にGUIコントローラとして評価しており、画面を観察し、タップとスワイプを出力し、ターゲットのアプリ状態によってスコア付けされている。
アプリケーションGUI、デバイスサイドコマンド、構造化ツールをいつ使うかを決め、意図した副作用が実際に発生した証拠を残す必要がある。
我々はPhoneHarnessを紹介した。PhoneHarnessは、携帯電話用エージェントを検証可能なモバイルワークフローで研究するための混合アクションベンチマークと実行ハーネスである。
PhoneHarnessは、デバイス側エージェントループをGUI、CLI、ホスト側ツールアクション上で実行し、決定論的アクションルーティングと境界GUIデリゲートと監査可能な実行トレースを組み合わせる。
そのベンチマークであるPhoneHarness Benchは、エージェントが観測可能な副作用を持つタスクを完了したかどうかを評価する。
注釈付き評価分割では、PhoneHarnessは75.0%のパス率に達し、PhoneHarness以外の最強設定を12.9%上回った。
PhoneHarnessとPhoneHarness Benchは異なるが相互に依存する役割を担っている。
この結果から,信頼度の高い電話の自動化は,視覚的GUI制御だけでなく,動作面のルーティングと検証可能な実行に依存することが示唆された。
関連論文リスト
- WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces [27.11445886768225]
WeaveBenchは,8つの実世界の作業領域に114のタスクを持つ,長期にわたるハイブリッドインターフェースベンチマークである。
デプロイされたCLIエージェントランタイム内の実際のUbuntuデスクトップ上でこれらのタスクを評価し、最小限のデスクトップコントロールプラグインで拡張します。
フロンティアのモデルと実行時のペアリング全体では、最高のPassRateは41.2%にしか達せず、ベンチマークは飽和状態には程遠い。
論文 参考訳(メタデータ) (2026-06-08T12:39:23Z) - KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation [72.01173512175531]
KnowU-Benchはパーソナライズされたモバイルエージェントのためのオンラインベンチマークである。
42のGUIタスク、86のパーソナライズされたタスク、64のプロアクティブタスクをカバーしている。
明示的なタスク実行に優れるエージェントは、あいまいな指示の下で50%以下に低下する。
論文 参考訳(メタデータ) (2026-04-09T16:50:50Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文 参考訳(メタデータ) (2025-05-29T16:08:51Z) - LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation [8.998467488526327]
本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。
LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
論文 参考訳(メタデータ) (2024-04-12T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。