論文の概要: MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.16748v1
- Date: Mon, 15 Jun 2026 14:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.599097
- Title: MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents
- Title(参考訳): MyPCBench: 個人の知的コンピュータ利用エージェントのベンチマーク
- Authors: Lawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov,
- Abstract要約: コンピュータ利用エージェントの最近のベンチマークは、非対人環境におけるモデルを評価する。
MyPCBenchは、コンピュータ利用エージェントを、シミュレーションされた現実世界のWebアプリケーションが17個あるLinuxデスクトップ上のパーソナルアシスタントとしてテストする。
- 参考スコア(独自算出の注目度): 43.32396184134805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.
- Abstract(参考訳): コンピュータ利用エージェントの最近のベンチマークは、非対人環境におけるモデルを評価する。
これにより、パーソナルアシスタントは、コンテキスト、履歴データ、ログインアカウントを含む、ユーザのデジタルライフ全体にわたって機能することが期待される評価とデプロイメントのギャップが残る。
ライブのWeb評価では、ログインや個人情報を必要とするサイトや、本物のパーソナルアシスタントが運転しなければならないサイトを動作させることができない。
私たちはMyPCBenchを紹介します。これは、コンピュータ利用エージェントを、シミュレーションされた現実世界のWebアプリケーションとフルデスクトップスタックで人口密度の高いLinuxデスクトップ上でパーソナルアシスタントとしてテストします。
この環境で184のタスクを定義し、それぞれがOpenClawコミュニティから引き出された真の要求にインスパイアされ、コンピュータ+bashツールサーフェスを統一した6つのクローズドおよびオープンウェイトモデルをベンチマークする。
最良のモデルであるClaude Opus 4.6は、タスクの55.4\%を完全に解決している。
モデル障害は多くのアプリケーションにまたがるタスクと、パーソナライゼーションがアシスタントを最も強調する長いトラジェクトリにクラスタされる。
環境、タスクセット、エージェントハーネスはhttps://mypcbench.com.comで公開しています。
関連論文リスト
- ClawBench: Can AI Agents Complete Everyday Online Tasks? [50.958690494341106]
ClawBenchは153のシンプルなタスクの評価フレームワークで、人々が人生や仕事で定期的に達成する必要がある。
ClawBenchは本番Webサイトで動作し、実世界のWebインタラクションの完全な複雑さ、動的な性質、課題を保存する。
軽量なインターセプション層は、最終的なリクエストのみをキャプチャしてブロックし、現実世界の副作用なしに安全な評価を保証する。
論文 参考訳(メタデータ) (2026-04-09T17:57:13Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。