論文の概要: EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
- arxiv url: http://arxiv.org/abs/2606.23654v1
- Date: Mon, 22 Jun 2026 17:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:26:32.309756
- Title: EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
- Title(参考訳): EnterpriseClawBench: 実際の職場セッションのベンチマークエージェント
- Authors: Jincheng Zhong, Weizhi Wang, Che Jiang, Kai Tian, Zhenzhao Yuan, Junlin Yang, Dianqiao Lei, Kaiyan Zhang,
- Abstract要約: プロプライエタリな実世界のエージェントセッションから構築されたエンタープライズエージェントベンチマークであるEnterpriseClawBenchを紹介する。
セッションには社内の企業コンテンツが含まれているため、ベンチマークデータを公開せず、再利用可能なコントリビューションは、構築および評価プロトコルです。
その結果、企業エージェントの評価では、ハーネス・モデルの組み合わせ、アーティファクト・デリバリ、視覚的品質、コスト、実行時、スキル・トランスファーの振る舞いを報告しなければなりません。
- 参考スコア(独自算出の注目度): 13.360453388115024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise agents increasingly operate inside workspaces: they read heterogeneous files, invoke tools, and deliver business artifacts. We introduce EnterpriseClawBench, an enterprise agent benchmark constructed from proprietary, real-world agent sessions. Starting from a large archive of workplace sessions, the EnterpriseClawBench produces 852 reproducible tasks, each paired with recovered fixtures, rewritten prompts, role classes, skill subclasses, hard rules, and semantic rubrics. Because the sessions contain internal enterprise content, we do not release the benchmark data; instead, our reusable contribution is the construction and evaluation protocol. On EnterpriseClawBench, the best configuration reaches only 0.663 (Codex with GPT-5.5). These results show that enterprise agent evaluation must report harness--model combinations, artifact delivery, visual quality, cost, runtime, and skill-transfer behavior, rather than collapsing performance into a single score. Code: https://github.com/FrontisAI/EnterpriseClawBench
- Abstract(参考訳): エンタープライズエージェントは、異種ファイルの読み込み、ツールの呼び出し、ビジネス成果物の提供など、ワークスペース内でますます運用されるようになる。
プロプライエタリな実世界のエージェントセッションから構築されたエンタープライズエージェントベンチマークであるEnterpriseClawBenchを紹介する。
EnterpriseClawBenchは、大規模な職場セッションのアーカイブから、再現可能なタスクを852個生成し、それぞれに復元されたフィクスチャ、書き直しプロンプト、ロールクラス、スキルサブクラス、ハードルール、セマンティックルーブリックをペアにしている。
セッションには社内の企業コンテンツが含まれているため、ベンチマークデータを公開せず、再利用可能なコントリビューションは、構築および評価プロトコルです。
EnterpriseClawBench では、最高の設定は 0.663 (Codex with GPT-5.5) である。
これらの結果から,企業エージェント評価では,パフォーマンスをひとつのスコアに分解するのではなく,モデルの組み合わせ,アーティファクトデリバリ,視覚的品質,コスト,実行時間,スキル伝達の振る舞いを報告しなければならない。
コード:https://github.com/FrontisAI/EnterpriseClawBench
関連論文リスト
- RealClawBench: Live OpenClaw Benchmarks from Real Developer-Agent Sessions [9.31655300350697]
実際のOpenClawセッションから構築されたベンチマークフレームワークであるRealClawBenchを紹介した。
RealClawBenchは、これらの課題に、再構築された実行環境と決定論的検証可能なスコアラの2つのメカニズムで対処する。
結果として得られたリリースには、はるかに大きなリアルセッションプールからサンプリングされた281の実行可能なタスクが含まれている。
論文 参考訳(メタデータ) (2026-06-02T16:51:24Z) - SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers [55.39407031861402]
本稿では,スマートコントラクトデコンパイルのためのデータセットとベンチマーク手法であるSCDBenchを紹介する。
データセットには600の現実のSolidityコントラクトと、ペア化されたバイトコード入力、地味なソースコード、再生可能なセマンティックチェックポイントが含まれている。
我々は,GLM-5の変種を含むゼロショット逆コンパイル設定において,Claude Opus 4.7,GPT-5.3-Codex,GLM-5を評価した。
論文 参考訳(メタデータ) (2026-05-27T20:08:47Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation [7.907933839674293]
大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:04:15Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。