論文の概要: STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios
- arxiv url: http://arxiv.org/abs/2606.10394v1
- Date: Tue, 09 Jun 2026 04:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.315173
- Title: STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios
- Title(参考訳): STAGE-Claw: リアルシナリオのための状態ベースのエージェントベンチマーク自動化
- Authors: Sirui Liang, Bohan Yu, Peiyu Wang, Shiguang Guo, Wenxing Hu, Pengfei Cao, Jian Zhao, Cao Liu, Ke Zeng, Xunliang Cai, Kang Liu,
- Abstract要約: 本稿では,現実的な個人エージェントシナリオの構築と評価のための自動フレームワークSTAGE-Clawを紹介する。
本稿では,STAGE-Clawを用いて,現実シナリオエージェントタスク40のベンチマークを作成し,11のフロンティアモデルを評価し,タスクスコア,コスト,ツールコール信頼性,一般的な障害パターンを分析した。
- 参考スコア(独自算出の注目度): 38.892583102842956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used to power personal agents for everyday applications, but evaluating these agents remains a challenge. Existing benchmarks still rely on sandboxed artifacts, static task design, and coarse scoring, which hinder scalability and limit progress toward reliable personal-agent evaluation. This paper introduces STAGE-Claw, an automated framework for building and evaluating realistic personal-agent scenarios in state-based personal-computing environments. Given a task hint, STAGE-Claw automatically creates and validates a realistic benchmark task with its environment, task prompts, ground truth, and related verification programs. Agents are then evaluated in realistic operating environments, where performance is measured by the correctness of the final system state rather than only the textual response. Using STAGE-Claw, this paper creates a benchmark with 40 challenging real scenario agent tasks, evaluates 11 frontier models, and analyzes their task scores, costs, tool-call reliability, and common failure patterns. Overall, STAGE-Claw offers a scalable, state-based way to evaluate agents in realistic user scenarios.
- Abstract(参考訳): 大規模な言語モデルは、日々のアプリケーションにパーソナルエージェントをパワーするのにますます使われていますが、これらのエージェントを評価することは依然として課題です。
既存のベンチマークは、サンドボックス化されたアーティファクト、静的タスク設計、粗いスコアに依存しており、スケーラビリティを妨げ、信頼性の高い個人エージェント評価への進捗を制限する。
本稿では、状態ベースのパーソナル・コンピューティング環境における現実的な個人エージェントシナリオの構築と評価のための自動フレームワークSTAGE-Clawを紹介する。
タスクヒントが与えられたSTAGE-Clawは、その環境、タスクプロンプト、基底真理、および関連する検証プログラムを使って、現実的なベンチマークタスクを自動生成し、検証する。
エージェントは現実的な操作環境で評価され、テキスト応答だけでなく最終的なシステム状態の正確性によってパフォーマンスが測定される。
本稿では,STAGE-Clawを用いて,現実シナリオエージェントタスク40のベンチマークを作成し,11のフロンティアモデルを評価し,タスクスコア,コスト,ツールコール信頼性,一般的な障害パターンを分析した。
全体として、STAGE-Clawは、現実的なユーザシナリオでエージェントを評価するためのスケーラブルでステートベースの方法を提供する。
関連論文リスト
- SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence [30.99083906950254]
本研究では,自発的なプラン・アクションのばらつきを評価するためのベンチマークSPADE-Benchを紹介する。
以前の偽装ベンチマークとは異なり、SPADE-Benchは実際のツールの実行と制御されたプレッシャーシナリオを同時に統合する。
実験により、エージェントの偽装は、ツール使用のコンテキストにおいて真に迫った問題であることを確認した。
論文 参考訳(メタデータ) (2026-06-01T15:28:34Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents [15.119045051735633]
コンピュータ・ユースエージェント(CUA)は、人間のコンピュータインタラクションにおける新しいパラダイムとして登場し、ハイレベルな自然言語命令を知覚することで、デスクトップ環境におけるタスクの自律実行を可能にしている。
既存の評価パイプラインは、静的ベンチマーク、ルールベースの成功チェック、手作業によるインスペクションに依存している。
観察可能な相互作用から直接CUAタスク完了を評価する自律監査機として視覚言語モデル(VLM)について検討する。
現状のVLMは高い精度とキャリブレーションを達成するが、全ての監査員はより複雑な性能劣化を示す。
論文 参考訳(メタデータ) (2026-03-11T09:28:41Z) - Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。