論文の概要: ChainWorld: Composing Long-Horizon Desktop Workloads from Atomic OSWorld Tasks
- arxiv url: http://arxiv.org/abs/2606.21654v1
- Date: Fri, 19 Jun 2026 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:17:53.835028
- Title: ChainWorld: Composing Long-Horizon Desktop Workloads from Atomic OSWorld Tasks
- Title(参考訳): ChainWorld:Atomic OSWorldタスクから長距離デスクトップワークロードを構成する
- Authors: Vincent Siu, Manasi Sharma, Dawn Song, Daniel Yue Zhang, Chenguang Wang,
- Abstract要約: ChainWorldは、アトミックOSWorldタスクを長期のデスクトップワークロードに構成する。
単ターン評価では、全てのタスクが1つのプロンプトでまとめられる。
マルチターン評価では、タスクが一度にひとつ明らかにされる。
- 参考スコア(独自算出の注目度): 43.05751848688531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer use agents are evaluated almost exclusively on atomic desktop tasks, but realistic desktop work requires sustaining state across multiple objectives. We study this gap with ChainWorld, which composes atomic OSWorld tasks into long horizon desktop workloads through directional compatibility search while preserving the source evaluators. The resulting workload contains 347 chains of length two to four and compares two renderings of the same task sequence. In single turn evaluation, all tasks are presented together in one prompt. In multi turn evaluation, tasks are revealed one at a time. Across four current computer use agents, maximum chain completion is 31%. Multi turn evaluation improves completion for three models, but both protocols remain challenging. The two protocols also expose different failure profiles. Single turn failures concentrate on artifact precision, while multi turn failures more often reflect session management problems such as fragmented progress and later turn disengagement.
- Abstract(参考訳): コンピュータ利用エージェントはほとんどがアトミックなデスクトップタスクで評価されているが、現実的なデスクトップ作業には、複数の目的にまたがる持続的な状態が必要である。
そこで我々は,このギャップをChainWorldで調べる。これはOSWorldのアトミックタスクを,ソース評価を保ちながら方向性の整合性検索によって,長期の水平デスクトップワークロードに構成するものだ。
結果のワークロードは長さ2から4の347のチェーンを含み、同じタスクシーケンスの2つのレンダリングを比較する。
単ターン評価では、全てのタスクが1つのプロンプトでまとめられる。
マルチターン評価では、タスクが一度にひとつ明らかにされる。
現在のコンピュータ使用エージェントは4つあり、最大チェーン完了率は31%である。
マルチターン評価は3つのモデルの補完を改善するが、どちらのプロトコルも困難である。
2つのプロトコルは異なるフェールプロファイルを公開する。
シングルターン障害はアーティファクトの精度に集中する一方、マルチターン障害は、断片化された進捗や後に切り離すといったセッション管理上の問題を反映することが多い。
関連論文リスト
- Multi-Agent Computer Use [72.79887808312706]
我々はマルチエージェント・コンピュータ・ユース(MACU)システムの評価・構築に向けて進むべきであると論じる。
本稿では、マネージャモデルがコンピュータ使用タスクを有向非巡回グラフ(DAG)として分解する汎用マルチエージェント構成を提案する。
各イテレーションで、マネージャは並列CUAサブエージェントをディスパッチし、DAGの準備ができているフロンティアでノードを実行する。
論文 参考訳(メタデータ) (2026-06-01T01:29:36Z) - Interference-Aware Multi-Task Unlearning [12.81657972660281]
マルチタスク・アンラーニングには、フルタスク・アンラーニングと部分タスク・アンラーニングという2つの設定がある。
共有パラメータは,非目標タスクに対するタスクレベルの干渉を引き起こす。
本稿では,タスク固有の部分空間内での更新を制約するタスク認識勾配予測を組み合わせた干渉認識フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-18T19:05:40Z) - WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments [34.06270058972]
WindowsWorldは、現実世界のプロのアクティビティを反映した複雑なマルチステップタスクでGUIエージェントを評価するように設計されている。
本手法では,16の職業によって構成されたマルチエージェント・フレームワークを用いて,4つの困難レベルタスクを生成する。
ベンチマークには181のタスクが含まれ、17の一般的なデスクトップアプリケーションで平均5.0のサブゴールがある。
論文 参考訳(メタデータ) (2026-04-30T12:13:27Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - On the Reliability of Computer Use Agents [47.20065484006984]
コンピュータ利用エージェントの信頼性の低下の原因を3つの要因から検討する。
信頼性は、タスクの指定方法と、エージェントの動作が実行毎に変化する方法の両方に依存します。
論文 参考訳(メタデータ) (2026-04-20T05:59:04Z) - Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [35.30497528897595]
Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
論文 参考訳(メタデータ) (2026-04-03T13:02:01Z) - CORAL: Scalable Multi-Task Robot Learning via LoRA Experts [49.759823970016974]
実世界のロボット工学におけるビジョン・ランゲージ・アクション(VLA)モデルは、コアマルチタスク学習の課題を露呈する。
タスク毎に個別の完全なチェックポイントを維持することは、しばしばストレージとデプロイメントの禁止である。
主にマルチタスク干渉を軽減するために設計されたバックボーンおよび非依存のフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2026-03-10T07:28:41Z) - CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。
負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。
マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:54:34Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。