論文の概要: MacAgentBench: Benchmarking AI Agents on Real-World macOS Desktop
- arxiv url: http://arxiv.org/abs/2606.22557v1
- Date: Sun, 21 Jun 2026 15:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:39:32.469152
- Title: MacAgentBench: Benchmarking AI Agents on Real-World macOS Desktop
- Title(参考訳): MacAgentBench: 実世界のmacOSデスクトップ上でAIエージェントをベンチマークする
- Authors: Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou,
- Abstract要約: コンピュータ利用エージェント(CUA)は、デスクトップ自動化において急速に進歩し、常に自動化されたCUAをデプロイするユーザが増えている。
メトリクスを含む既存のベンチマークでは、フレームワークを拡張せずにエージェントを評価し、バイナリ評価に依存している。
我々は、25のアプリケーションにまたがる676のタスクからなる包括的なエージェントベンチマークであるMacAgentBenchを紹介する。
- 参考スコア(独自算出の注目度): 32.14321067864185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer use agents (CUAs) have advanced rapidly in desktop automation, and a growing number of users deploy CUAs such as OpenClaw on Mac Mini for always-on automation. However, existing benchmarks, including those for macOS, evaluate agents without framework augmentation and rely on binary evaluation. As a result, they fail to capture both the framework capabilities leveraged by modern CUAs and the partial progress on long-horizon, multi-application tasks. We present MacAgentBench, a comprehensive macOS agent benchmark comprising 676 tasks across 25 applications, with nearly 60% involving both GUI and CLI interaction. The benchmark adopts deterministic rule-based evaluation and introduces fine-grained multi-checkpoint scoring with capability annotations for multi-application tasks. Experiments across three frameworks and 16 models show that the best configuration, Claude Opus 4.6 on OpenClaw, attains 73.7% Pass@1, while this advantage is primarily driven by the skill library rather than by framework design. Fine-grained metrics further reveal that models with similar Pass@1 can differ substantially in sub-goal completion. Our code and data are publicly available at https://github.com/JetAstra/MacAgentBench.
- Abstract(参考訳): コンピュータ・ユース・エージェント (CUA) はデスクトップ・オートメーションにおいて急速に進歩しており、Mac Mini に OpenClaw などの CUA を常時起動するユーザも増えている。
しかし、macOSを含む既存のベンチマークでは、フレームワークを拡張せずにエージェントを評価し、バイナリ評価に依存している。
その結果、最新のCUAによって活用されるフレームワーク機能と、長期のマルチアプリケーションタスクにおける部分的な進歩の両方をキャプチャできなかった。
我々は、25のアプリケーションにわたる676のタスクからなる、包括的なmacOSエージェントベンチマークであるMacAgentBenchを紹介します。
このベンチマークでは、決定論的ルールに基づく評価を採用し、マルチアプリケーションタスクのための機能アノテーションを備えた、きめ細かいマルチチェックポイントスコアを導入している。
3つのフレームワークと16モデルにわたる実験によると、最高の構成であるOpenClawのClaude Opus 4.6が73.7%のPass@1に達した。
詳細な測定結果から、Pass@1と類似したモデルが、サブゴール完了時に大きく異なる可能性があることが分かる。
私たちのコードとデータはhttps://github.com/JetAstra/MacAgentBench.comで公開されています。
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - macOSWorld: A Multilingual Interactive Benchmark for GUI Agents [56.25808761731417]
グラフィカルユーザインタフェース(GUI)エージェントは、コンピュータ利用タスクを自動化するための有望な能力を示す。
既存のインタラクティブベンチマークは主に英語のみで、WebアプリケーションやLinux、Android環境をカバーしている。
GUIWorldは、Windows上でGUIエージェントを評価するための最初の総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-06-04T16:26:56Z) - InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。