論文の概要: WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
- arxiv url: http://arxiv.org/abs/2606.09426v2
- Date: Wed, 10 Jun 2026 16:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.36917
- Title: WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
- Title(参考訳): WeaveBench: ハイブリッドインターフェースを備えたコンピュータ使用エージェントの長期リアルタイムベンチマーク
- Authors: Wanli Li, Bowen Zhou, Yunyao Yu, Zhou Xu, Yifan Yang, Dongsheng Li, Caihua Shan,
- Abstract要約: WeaveBenchは,8つの実世界の作業領域に114のタスクを持つ,長期にわたるハイブリッドインターフェースベンチマークである。
デプロイされたCLIエージェントランタイム内の実際のUbuntuデスクトップ上でこれらのタスクを評価し、最小限のデスクトップコントロールプラグインで拡張します。
フロンティアのモデルと実行時のペアリング全体では、最高のPassRateは41.2%にしか達せず、ベンチマークは飽和状態には程遠い。
- 参考スコア(独自算出の注目度): 27.11445886768225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, browsers, and external tools. Existing benchmarks, however, often evaluate these interfaces as separable capabilities, leaving long-horizon cross-interface orchestration under-tested. Thus, we introduce WeaveBench, a long-horizon hybrid-interface benchmark with 114 tasks across 8 real-world work domains, grounded in real user requests and publicly verifiable artifacts. Each task requires agents to combine GUI observations/actions with CLI/code operations within a single trajectory. We evaluate these tasks on a real Ubuntu desktop inside deployed CLI-agent runtimes, augmented with a minimal desktop-control plugin. We also propose a companion trajectory-aware judge that inspects deliverables, files, screenshots, logs, and action traces, while detecting shortcut behaviors such as fabricated visual evidence or hard-coded metrics. Across frontier model-runtime pairings, the best PassRate reaches only 41.2%, showing the benchmark remains far from saturated. The trajectory-aware judge further reveals that outcome-only grading substantially overestimates agent performance. Overall, WeaveBench exposes a critical gap in CUA evaluation and provides an effective testbed to measure whether agents can orchestrate GUI, CLI, and code operations across long-horizon real-world tasks.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、視覚デスクトップコントロール、コマンドライン実行、コード編集、ブラウザ、外部ツールを組み合わせたランタイムでますます運用されている。
しかし、既存のベンチマークでは、これらのインターフェースを分離可能な機能として評価し、長い水平の界面オーケストレーションを未試験のまま残している。
WeaveBenchは,8つの実世界の作業領域で114のタスクを処理し,実際のユーザ要求と公に検証可能なアーティファクトをベースとした,長期にわたるハイブリッドインターフェースベンチマークである。
各タスクには、GUIの観察/アクションとCLI/コード操作を1つの軌道内で組み合わせるエージェントが必要である。
デプロイされたCLIエージェントランタイム内の実際のUbuntuデスクトップ上でこれらのタスクを評価し、最小限のデスクトップコントロールプラグインで拡張します。
また,納品物,ファイル,スクリーンショット,ログ,行動トレースを検査し,製造された視覚的証拠やハードコードメトリクスなどのショートカット動作を検出する。
フロンティアのモデルと実行時のペアリング全体では、最高のPassRateは41.2%にしか達せず、ベンチマークは飽和状態には程遠い。
さらに、軌道認識判定器は、結果のみの格付けがエージェント性能を著しく過大評価することを明らかにする。
WeaveBenchはCUA評価において重要なギャップを露呈し、エージェントがGUI、CLI、コード操作を長時間の現実世界のタスクでオーケストレーションできるかどうかを測定するための効果的なテストベッドを提供する。
関連論文リスト
- SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows? [29.5539656241093]
Computer-Using Agents (CUA)は、より複雑な環境でのアクション実行に対するテキストベースの推論を超えて、大規模言語モデル(LLM)を急速に拡張している。
既存のベンチマークは、しばしば単純化された設定、孤立したタスク、短期水平相互作用に依存している。
6つのプロフェッショナルドメインにわたる23のデプロイ可能なシステム上に構築されたベンチマークには、現実的な作業シナリオに基づく106のタスクが含まれています。
実験の結果、LLMベースのエージェントがベンチで苦労していることが示され、最強のモデルでさえ、エンドツーエンドのタスクの4%未満を完了している。
論文 参考訳(メタデータ) (2026-05-15T09:35:15Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks [37.79008306764891]
実世界のタスクは複雑で、複数の有効なソリューションが可能である。
オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができる
オンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。
本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T12:30:05Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。