論文の概要: Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
- arxiv url: http://arxiv.org/abs/2606.12344v1
- Date: Wed, 10 Jun 2026 17:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.586164
- Title: Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
- Title(参考訳): Claw-SWE-Bench: コーディングタスクにおけるOpenClaw-style Agent Harnesssの評価ベンチマーク
- Authors: Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang,
- Abstract要約: OpenClawのような汎用エージェントは、自律的なツールユーザとしてますます利用されている。
マルチリンガルなSWEベンチマークおよびアダプタプロトコルであるClaw-SWE-Benchを紹介する。
Claw-SWE-Benchは、SWEスタイルの符号化エージェント評価の第一級軸として、ハーネスとコスト会計を扱う。
- 参考スコア(独自算出の注目度): 75.92297551160692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only $19.1\%$ Pass@1, whereas the full adapter reaches $73.4\%$ with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw $\times$ nine-model sweep and a five-claw $\times$ two-model sweep, model choice changes Pass@1 by $29.4$ pp and harness choice by $27.4$ pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
- Abstract(参考訳): OpenClawのような汎用エージェントは、ますます自律的なツールユーザとして使用されているが、そのコーディング能力はSWE-benchの下で測定することが難しい。
我々はClaw-SWE-Benchを紹介した。Claw-SWE-Benchは多言語SWEベンチマークとアダプタプロトコルで、固定プロンプト、ランタイム予算、ワークスペース契約、パッチ抽出手順、評価器などを含む公平な設定の下で、異種エージェントハーネス、あるいは爪を作る。
完全なベンチマークには、将来のコミットクリーンアップ後にSWE-bench-MultilingualとSWE-bench-Verified-Miniから引き出された8つの言語と43のリポジトリにわたる350のGitHubイシュー解決インスタンスが含まれている。
また,Claw-SWE-Bench Liteを高速な検証のためにリリースした。
完全なベンチマークでは、最小の直接差分アダプタを持つOpenClawのスコアは19.1\%$ Pass@1であるのに対して、完全なアダプタは同じGLM 5.1のバックボーンで73.4\%$に達する。
OpenClaw$\times$9-model sweepと5-claw$\times$2-model sweep、モデル選択変更 Pass@1 =29.4$ pp、固定モデルでは27.4$ pp で選択できる。
したがって、Claw-SWE-Benchは、SWEスタイルのコーディングエージェント評価の第一級軸として、ハーネスとコストの会計を扱い、完全なベンチマークと再現可能な比較のための低コストのリファレンスセットを提供する。
データはhttps://github.com/opensquilla/claw-swe-benchとhttps://huggingface.co/datasets/TokenRhythm/Claw-SWE-Benchで入手できる。
関連論文リスト
- TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework [0.9012337166501982]
CohenBenchはオープンソースのコンパイラベースのフレームワーク上のタスクのベンチマークである。
エージェントのパッチを適用して、フレームワークのテストスイートを実行することで、各実行をグレードする。
3つのフロンティアモデルファミリーと1つのオープンウェイトモデルにまたがる7つの符号化エージェントを評価した。
論文 参考訳(メタデータ) (2026-06-04T01:42:40Z) - RRISE: Robust Radius Inference via a Surrogate Estimator [30.521314184750867]
我々はRSフレームワークRRISEを導入し、認証を学習したサロゲートを1つのフォワードパスに圧縮する。
CIFAR-100とTiny ImageNetでは、唯一のオフラインサロゲート方式が崩壊し、RRISEは1.23ドルから1.91タイムスを高い精度で達成した。
論文 参考訳(メタデータ) (2026-06-01T20:46:06Z) - HyDRA: Hybrid Dynamic Routing Architecture for Heterogeneous LLM Pools [2.0320563270126493]
我々は,クエリ毎の細粒度,多次元能力要件を予測するフレームワークHyDRAを提案する。
ショートフォールマッチングアルゴリズムは、予測された要求を満たす機能を持つ最も安価なモデルを選択する。
このフレームワークは、GitHub CopilotのVS Code Chat自動モードのすべてのユーザにデプロイされる。
論文 参考訳(メタデータ) (2026-05-16T18:19:30Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents [0.0]
大規模言語モデル(LLM)エージェントの信頼性向上のための強力な手法として,推論時計算スケーリングが登場している。
我々は、ロールアウト間動作合意を計測することで、エージェントタイムステップ間でLLMコールを適応的に割り当てる訓練不要のコントローラTrACEを紹介する。
論文 参考訳(メタデータ) (2026-04-09T15:34:22Z) - MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild [74.7263562191605]
大規模言語モデル(LLM)エージェントは、複雑なタスクにますます使われている。
既存の方法は、知識を蒸留せずに生の軌跡を保存するか、静的なスキルライブラリを維持するか、または再訓練のために破壊的なダウンタイムを必要とする。
本稿では,基本的なLCMポリシと再利用可能な行動スキルのライブラリを共同で進化させるメタ学習フレームワークであるMetaClawを紹介する。
論文 参考訳(メタデータ) (2026-03-17T22:30:30Z) - SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories [2.951332247539421]
オープンソースGitHubプロジェクトからリポジトリレベルのコーディングタスクを生成する自動フレームワークであるSWE-Bench++を紹介します。
合成アプローチとは異なり、パイプラインは11言語にわたるバグ修正と機能要求の両方をカバーするために、ライブプルリクエストを収集します。
最初のベンチマークは11言語にわたる3,971リポジトリから11,133インスタンスで構成されています。
論文 参考訳(メタデータ) (2025-12-19T10:16:51Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Higher-Order Certification for Randomized Smoothing [78.00394805536317]
本研究では,スムーズな分類器の安全性向上のための枠組みを提案する。
我々は,0th$-orderと1st$-order情報を用いて,認証された安全領域を計算する方法を提案する。
また,高次情報を用いた認証計算を一般化するフレームワークも提供する。
論文 参考訳(メタデータ) (2020-10-13T19:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。