論文の概要: Reasoning for Mobile User Experience with Multimodal LLMs: Task, Benchmark, and Approach
- arxiv url: http://arxiv.org/abs/2606.13192v1
- Date: Thu, 11 Jun 2026 11:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.743529
- Title: Reasoning for Mobile User Experience with Multimodal LLMs: Task, Benchmark, and Approach
- Title(参考訳): マルチモーダル LLM を用いたモバイルユーザエクスペリエンスの推論:タスク,ベンチマーク,アプローチ
- Authors: Ruichao Mao, Zhou Fang, Teng Guo, Hao Yang, Yaping Li, Shaohua Peng, Maji Huang, Xiaoyu Lin, Shuoyang Liu, Xuepeng Li, Yuyu Zhang, Hai Rao,
- Abstract要約: 本稿では,Qwen3-VL-4B-Thinking基盤モデルに基づくMLLMのUI-UXを提案する。
UX-UXはUXBench上での最先端(SOTA)のパフォーマンスを実現し、精度は0.7963である。
- 参考スコア(独自算出の注目度): 14.935343848369486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User experience (UX) centered on usability, perceived consistency, and functional clarity is fundamental to real-world user interfaces (UI). The application of multimodal large language models (MLLMs) in the field of user interfaces is evolving rapidly, such as visual element grounding, graphical user interface (GUI) agents, and design-to-code generation. However, research efforts on evaluating UX based on UI screenshots are still immature. To address this, we propose UXBench, a novel multimodal benchmark consisting of 2,000 VQA data samples designed to assess MLLMs' ability to perform UI-based reasoning. UXBench includes 8 tasks based on real-world UI screenshots that require fine-grained diagnosis of UX issues across layout relationships, visual hierarchy, and content consistency. Our extensive evaluation of mainstream MLLMs shows that they remain fundamentally limited in their capacity for UI-based reasoning. The results underscore the need for further advancements in this area. To bridge this gap, we propose UI-UX, an MLLM based on Qwen3-VL-4B-Thinking foundation model and enhanced via reinforcement learning with two key innovations: a reward routing mechanism that dynamically balances perceptual understanding and logical reasoning during inference, and an asymmetric transition reward that suppresses redundant or insufficient reasoning steps. Experiments demonstrate that UI-UX achieves state-of-the-art (SOTA) performance on UXBench, attaining an accuracy of 0.7963 -- surpassing Claude-4.5-Sonnet's 0.6550 -- while exhibiting strong generalization across diverse UI tasks and maintaining low inference latency.
- Abstract(参考訳): ユーザエクスペリエンス(UX)は、ユーザビリティ、知覚整合性、機能的明確性を中心に、現実世界のユーザインターフェース(UI)に不可欠です。
ユーザインタフェース分野におけるマルチモーダル・大規模言語モデル(MLLM)の適用は、ビジュアル要素接地、グラフィカルユーザインタフェース(GUI)エージェント、デザイン・ツー・コード生成など、急速に進展している。
しかし、UIスクリーンショットに基づいたUXを評価するための研究努力はまだ未成熟である。
そこで我々は,UIベースの推論を行うMLLMの能力を評価するために,2000VQAデータサンプルからなる新しいマルチモーダルベンチマークであるUXBenchを提案する。
UXBenchには現実世界のUIスクリーンショットに基づいた8つのタスクが含まれており、レイアウト関係、視覚的階層、コンテントの一貫性といったUX問題のきめ細かい診断を必要とする。
メインストリームMLLMの広範な評価は、UIベースの推論能力に根本から制限されていることを示している。
結果は、この地域のさらなる進歩の必要性を浮き彫りにした。
このギャップを埋めるために、UI-UX、Qwen3-VL-4B-シンキング基礎モデルに基づいて強化学習により強化されたMLLM、推論中の知覚的理解と論理的推論を動的にバランスをとる報酬ルーティング機構、冗長または不十分な推論ステップを抑制する非対称的な遷移報酬を提案する。
UI-UXはUXBench上での最先端(SOTA)のパフォーマンスを実現しており、精度は0.7963で、Claude-4.5-Sonnetの0.6550を上回っている。
関連論文リスト
- WinDeskGround: A Benchmark for Robust GUI Grounding in Complex Multi-Window Desktop Environments [49.98994180610182]
MLLM (Multimodal Large Language Models) はGUIの自動化に革命をもたらしたが、その効果は理想化された単一層インタフェースでほぼ確立されている。
本稿では,最先端のエージェントが現実のデスクトップ環境において,異なる課題に直面しているという,重要な信頼性ギャップを明らかにする。
我々はGUI基盤の堅牢性を評価するための新しいベンチマークと合成フレームワークであるWinDeskGroundを紹介する。
論文 参考訳(メタデータ) (2026-05-13T02:48:52Z) - What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning [58.734995044357845]
UI-in-the-Loop(UILoop)と呼ばれる革新的なGUI推論パラダイムを提案する。
提案手法はGUI推論タスクをサイクリックスクリーンUI要素のアクションプロセスとして扱う。
MLLM(Multimodal Large Language Models)によって、キーUI要素のローカライゼーション、セマンティック関数、実用的な使用法を明示的に学習することで、UILoopは正確な発見を達成し、解釈可能な推論を行う。
論文 参考訳(メタデータ) (2026-04-08T12:12:09Z) - GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents [19.27396264271709]
GUI-CEvalは、物理的なデバイス環境上に構築された中国のモバイルGUIエージェントのための最初の包括的なベンチマークである。
4つのデバイスタイプにまたがる201のメインストリームアプリにまたがって、原子能力と現実的なアプリケーションレベルのパフォーマンスを5次元(知覚、計画、リフレクション、実行、評価)で評価する2レベル構造を採用している。
論文 参考訳(メタデータ) (2026-03-16T09:45:33Z) - UI-UG: A Unified MLLM for UI Understanding and Generation [19.7078650905834]
UI-UG(UI理解と生成のための統合MLLM)を導入し、両方の機能を統合する。
タスク理解には,グループ相対政策最適化(GRPO)を併用したスーパービジョンファインチューニング(SFT)を用い,より詳細な理解を深める。
生成タスクでは、さらにDPO(Direct Preference Optimization)を使用して、モデルが人間の好みのUIを生成する。
論文 参考訳(メタデータ) (2025-09-29T06:59:09Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding [45.81445929920235]
WeserUI-Benchは、モデルによるUI/UX設計のマルチモーダル理解を評価するための新しいベンチマークである。
現実世界のUIイメージペアは300種類あり、それぞれが実際の企業によって大規模にテストされた2つの設計版A/Bで構成されている。
このベンチマークでは,(1)A/Bテストで検証された勝者を予測することで,より効果的なUI/UX設計を選択すること,(2)モデルの勝者が,専門家の推論に従って,その有効性を説明することができること,の2つのコアタスクをサポートする。
論文 参考訳(メタデータ) (2025-05-08T08:00:32Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。