論文の概要: LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control
- arxiv url: http://arxiv.org/abs/2606.16802v1
- Date: Mon, 15 Jun 2026 14:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.644989
- Title: LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control
- Title(参考訳): LabOSBench: 科学機器制御のためのコンピュータ使用エージェントのベンチマーク
- Authors: Anqi Zou, Han Deng, Chengyu Zhang, Junquan Hu, Yu Wang, Yuxiang Xing, Aokai Zhang, Hanling Zhang, Zhaoyang Liu, Ben Fei, Zhihui Wang, Wanli Ouyang,
- Abstract要約: LabOSBench(ラボオベンチ)は、ウェブベースの科学計算シミュレータ上に構築されたマルチモーダルGUIエージェントのベンチマークである。
我々は,汎用視覚言語モデル,特殊GUIエージェントモデル,高度なエージェントフレームワークをサブタスクとエンド・ツー・エンドのレベルで評価する。
- 参考スコア(独自算出の注目度): 46.674982266623196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current computer-use benchmarks primarily focus on software operation tasks in virtualized systems, whereas scientific instrumentation scenarios require coordinated control over complex interfaces, and feedback-driven parameter adjustment. However, directly evaluating agents on physical high-precision instruments is impractical due to high cost, safety risks, limited accessibility, and difficulty in ensuring reproducible evaluation. This motivates the need for a simulated yet realistic testbed that preserves the operational challenges of scientific instruments while enabling scalable and safe benchmarking. To this end, we introduce LabOSBench, a challenging benchmark for multimodal GUI agents built on a suite of web-based scientific-instrument simulators. Operating directly via a browser, LabOSBench avoids resource-heavy OS virtualization while supporting flexible task configuration and execution-based evaluation. Specifically, LabOSBench constructs 96 subtasks across eight instrument simulators, covering workflows from sample loading, alignment, parameter tuning, and data acquisition to result inspection. We evaluate general-purpose vision-language models, specialized GUI agent models, and advanced agentic frameworks at both subtask and end-to-end levels. Our experiments reveal that while existing agents can complete many structured GUI subtasks, they still struggle with feedback-driven operations and long-horizon workflow execution. Overall, LabOSBench provides a reproducible, low-cost testbed for advancing computer-using agents toward scientific-instrument control.
- Abstract(参考訳): 現在のコンピュータ利用ベンチマークは、主に仮想化システムにおけるソフトウェア操作タスクに焦点を当てているが、科学機器のシナリオは複雑なインタフェースの協調制御とフィードバック駆動パラメータ調整を必要とする。
しかし, 高コスト, 安全性リスク, アクセシビリティの制限, 再現性評価の確保の難しさなどにより, 物理的高精度機器のエージェントを直接評価することは不可能である。
これは、スケーラブルで安全なベンチマークを可能にしながら、科学機器の運用上の課題を保存する、シミュレートされながら現実的なテストベッドの必要性を動機付けている。
この目的のために,Web ベースの科学構成シミュレータ上に構築されたマルチモーダル GUI エージェントのベンチマークである LabOSBench を紹介する。
ブラウザ経由で直接動作するLabOSBenchは、フレキシブルなタスク設定と実行ベースの評価をサポートしながら、リソースの多いOS仮想化を避ける。
具体的には、LabOSBenchは8つのシミュレーターにまたがる96のサブタスクを構築し、サンプルローディング、アライメント、パラメータチューニング、結果検査のためのデータ取得のワークフローをカバーしている。
我々は,汎用視覚言語モデル,特殊GUIエージェントモデル,高度なエージェントフレームワークをサブタスクとエンド・ツー・エンドのレベルで評価する。
実験の結果,既存のエージェントは多くのGUIサブタスクを完了させることができるが,フィードバック駆動操作や長時間のワークフロー実行に苦慮していることがわかった。
全体として、LabOSBenchは再現性が高く低コストなテストベッドを提供し、科学的な構成制御に向けてコンピュータ利用エージェントを前進させる。
関連論文リスト
- LabVLA: Grounding Vision-Language-Action Models in Scientific Laboratories [95.20367571157679]
Vision-Language-Action (VLA) モデルは、記述されたプロトコルとロボット実行の間の1つの可能なインターフェースを提供する。
既存の政策は、主に家庭やテーブルトップのデモンストレーションに基づいて訓練されており、機器、透明な液体、または科学実験室で見られる固定されたプロトコルに遭遇することは滅多にない。
まず、Qwen3-VL-4B-インストラクションバックボーンアクションを学習する前に認識させ、フローマッチング後トレーニングを行い、次に知識絶縁下でDiTアクションエキスパートをアタッチする。
論文 参考訳(メタデータ) (2026-06-11T17:03:53Z) - SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows? [29.5539656241093]
Computer-Using Agents (CUA)は、より複雑な環境でのアクション実行に対するテキストベースの推論を超えて、大規模言語モデル(LLM)を急速に拡張している。
既存のベンチマークは、しばしば単純化された設定、孤立したタスク、短期水平相互作用に依存している。
6つのプロフェッショナルドメインにわたる23のデプロイ可能なシステム上に構築されたベンチマークには、現実的な作業シナリオに基づく106のタスクが含まれています。
実験の結果、LLMベースのエージェントがベンチで苦労していることが示され、最強のモデルでさえ、エンドツーエンドのタスクの4%未満を完了している。
論文 参考訳(メタデータ) (2026-05-15T09:35:15Z) - Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants [85.1155076383488]
Pareは、デジタル環境におけるプロアクティブエージェントの構築と評価のためのフレームワークである。
Pare-Benchは、コミュニケーション、生産性、スケジューリング、ライフスタイルアプリにまたがる143のタスクのベンチマークである。
論文 参考訳(メタデータ) (2026-04-01T12:53:01Z) - WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing [57.7131457251794]
エンドツーエンドの自動Webテストを評価するベンチマークであるWebTestBenchを紹介します。
テストプロセスを2つのカスケードサブタスク、チェックリストの生成と欠陥検出に分解し、WebTesterを提案する。
以上の結果から,現在のコンピュータ利用エージェント能力と産業レベルの展開要求との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2026-03-26T09:27:29Z) - Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。
CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。
テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文 参考訳(メタデータ) (2026-02-19T13:48:29Z) - See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch [20.231957791642635]
本稿では,Scratchにおけるプログラム・バイ・コンストラクションタスクにおけるマルチモーダルGUIエージェントの評価ベンチマークであるScratchWorldを紹介する。
ScratchWorldは、Create、Debug、Extended、Computeの4つの異なる問題カテゴリにまたがる83のキュレートされたタスクで構成されている。
信頼性の高い評価を実現するため,構築したScratchプログラムの機能的正当性を検証した実行ベース評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-11T12:54:53Z) - AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act [27.922630781100864]
本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
我々は、非構造環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
私たちのベンチマークでは、オフラインの視覚言語テストがキャプチャーに失敗するいくつかの障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-02-02T05:30:14Z) - LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents [103.65422553044816]
LabUtopiaは、一般化可能な推論可能なエンボディエージェントの開発を容易にするために設計された総合的なシミュレーションとベンチマークスイートである。
30の異なるタスクをサポートし、200以上のシーンと楽器の資産を含んでいる。
LabUtopiaは、科学的目的のエージェントにおける知覚、計画、制御の統合を促進する強力なプラットフォームを提供していることを実証する。
論文 参考訳(メタデータ) (2025-05-28T17:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。