論文の概要: Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
- arxiv url: http://arxiv.org/abs/2606.11042v2
- Date: Wed, 10 Jun 2026 15:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.404871
- Title: Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
- Title(参考訳): ワークフローGYM:実世界のプロフェッショナル分野におけるコンピュータ利用エージェントタスクの長期評価に向けて
- Authors: Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Yi Zhu, Duju Zeng, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Xinying Liu, Xingzu Liu, Lingling Zhang, Xinjie Chen, Yujia Qin, Wangchunshu Zhou, Zhiyong Wu, Yang Liu, Jiaheng Liu, Lei Zhang, Shen Yan, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang,
- Abstract要約: 本稿では,専門分野と専門ソフトウェア環境を中心とした長期GUIタスクのベンチマークを紹介する。
最強のモデルでさえ、30%以上の成功率しか達成していません。
本研究は,現在のエージェントシステムの限界について重要な知見を提供し,次世代のGUIエージェント研究の鍵となる方向性を示唆するものである。
- 参考スコア(独自算出の注目度): 91.11458140756208
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.
- Abstract(参考訳): 近年、AIエージェントがますます複雑で現実的なタスクに対処するための急速な進化を目撃している。
しかし、既存のベンチマークでは、エージェントがグラフィカルなユーザーインターフェイスを操作できるかどうかをほとんど評価していない。
現在のGUIベンチマークは依然として汎用ソフトウェア、比較的単純なアプリケーション、短期的なタスクに重点を置いており、現代のエージェントがドメイン固有の専門的ソフトウェアを自律的に運用し、エンドツーエンドで経済的に価値のある仕事を達成するためのユーザー指示に従うことができるかどうかはほとんど分かっていない。
このギャップを埋めるために、プロフェッショナルドメインと専門ソフトウェア環境を中心とした長期GUIタスクのベンチマークであるWorkflow-GYMを紹介します。
最先端モデルに関する広範な実験を通じて、最強モデルでさえ30%以上の成功率しか達成していないことが判明した。
さらに分析によると、現在のエージェントは、ワークフローステージの欠落、エラーの伝播、客観的なドリフト、プロのソフトウェア環境の理解の不十分といった、長期にわたるワークフローの一貫性を維持するのに苦労している。
本研究は,現在のエージェントシステムの限界について重要な知見を提供し,次世代のGUIエージェント研究の鍵となる方向性を示唆するものである。
関連論文リスト
- CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing [30.62336565964961]
Cutverseは、現実的なメディアポストプロダクション環境で自律的なGUIエージェントを評価するために設計されたベンチマークである。
7つのプロフェッショナルアプリケーション(例:Premiere Pro、Photoshop)にまたがる専門家によるデモをキュレートします。
論文 参考訳(メタデータ) (2026-05-19T07:35:22Z) - The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration [58.61149924275458]
ツールの使用により、大きな言語モデルが外部情報にアクセスし、ソフトウェアシステムを実行し、モデルパラメータだけで解決できるもの以外のデジタル環境で動作することができる。
エージェントシステムが進化するにつれて、中央の問題は、中途半端な状態、実行フィードバック、環境の変化、安全性、コスト、検証可能性といった実践的な制約によって、孤立呼び出しからマルチツールオーケストレーションへと移行した。
推論時の計画と実行、トレーニングと軌道構築、安全と制御、リソース制約下での効率性、オープン環境における能力の完全性、およびベンチマーク設計と評価の6つの分野に関する文献を整理する。
論文 参考訳(メタデータ) (2026-03-24T07:05:05Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use [47.568491119335924]
ScreenSpot-Proは,MLLMの高精細度プロセッティングにおける接地性能を厳格に評価するために設計された新しいベンチマークである。
このベンチマークは、専門家アノテーションを持つさまざまな専門家ドメインの本物の高解像度画像を含む。
本稿では,強力なプランナーのGUI知識を活かしたビジュアル検索手法であるScreenSeekeRを提案する。
論文 参考訳(メタデータ) (2025-04-04T14:25:17Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。