論文の概要: SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?
- arxiv url: http://arxiv.org/abs/2606.07682v1
- Date: Fri, 05 Jun 2026 00:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.272027
- Title: SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?
- Title(参考訳): SWE-Marathon:エージェントは自律的に超長距離ソフトウェアを使えるか?
- Authors: Rishi Desai, Jesse Hu, Joan Cabezas, Neel Harsola, Pratyush Shukla, Roey Ben Chaim, Adnan El Assadi, Omkaar Mukund Kamath, Fenil Faldu, Prannay Hebbar, Jiankai Sun, Yiyuan Li, Pramod Srinivasan, Ishan Gupta, Christopher Settles, Daniel Wang, Derek Chen, Pranav Raja, Albert Liu, Marek Šuppa, Nevasini Sasikumar, Luyang Kong, Erik Quintanilla, Xiangyi Li, Ivan Bercovich, Steven Dillmann,
- Abstract要約: SWE-Marathonは、ソフトウェアエンジニアリングと隣接する技術ドメインにまたがる20の長期タスクのベンチマークである。
各タスクは、ユニークな実行環境、人間による参照ソリューション、多層検証スイートで構成される。
ログエージェントは平均27.2Mのトークンを試み、SWE-Marathonは既存のSWEやコマンドラインエージェントのベンチマークよりもかなり長くなる。
- 参考スコア(独自算出の注目度): 11.093716663660203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents are increasingly expected to complete long-horizon workflows that require sustained progress over hours, millions of tokens, and complex environments. Yet current agent benchmarks largely evaluate short-form tasks, such as single pull requests, small tickets, or 5-10 minute exercises, limiting our ability to measure agents' capabilities in planning, long-context understanding, and memory use. We introduce SWE-Marathon, a benchmark of 20 long-horizon tasks spanning software engineering and adjacent technical domains. Each task consists of a unique executable environment, a human-written reference solution, and a multi-layer verification suite. Logged agent attempts average 27.2M total tokens, making SWE-Marathon substantially longer-horizon than existing SWE and command-line agent benchmarks. Current frontier coding agents solve fewer than 30% of tasks. Failures often arise from poor self-verification, self-reported infeasibility, and premature termination. We also observe reward-hacking behavior in 13.8% of rollouts, where agents attempt to exploit the environment or verifier to bypass the intended workflow. SWE-Marathon includes adversarial review of test suites and execution environments, as well as multi-layer checks designed to prevent shortcut solutions. We release SWE-Marathon, evaluation code, and agent trajectories at https://swe-marathon.org/.
- Abstract(参考訳): AIエージェントは、数時間にわたる持続的な進捗、数百万のトークン、複雑な環境を必要とする、長期のワークフローを完了することがますます期待されている。
しかし、現在のエージェントベンチマークは、単一のプルリクエスト、小さなチケット、あるいは5~10分のエクササイズのようなショートフォームタスクを主に評価し、計画、長期コンテキスト理解、メモリ使用に関するエージェントの能力を測定する能力を制限する。
SWE-Marathonは、ソフトウェアエンジニアリングと隣接する技術ドメインにまたがる20の長期タスクのベンチマークである。
各タスクは、ユニークな実行環境、人間による参照ソリューション、多層検証スイートで構成される。
ログエージェントは平均27.2万のトークンを試み、SWE-Marathonは既存のSWEやコマンドラインエージェントのベンチマークよりもかなり長くなる。
現在のフロンティアコーディングエージェントは30%未満のタスクを解決している。
失敗は、不十分な自己検証、自己報告の不実現性、早期終了によって生じることが多い。
また,13.8%のロールアウトにおいて,エージェントが環境を利用して意図したワークフローを回避しようとする場合,報奨行動も観察する。
SWE-Marathonには、テストスイートと実行環境の逆レビューと、ショートカットソリューションを防ぐために設計されたマルチレイヤチェックが含まれている。
SWE-Marathon、評価コード、エージェントトラジェクトリをhttps://swe-marathon.org/でリリースします。
関連論文リスト
- SentinelBench: A Benchmark for Long-Running Monitoring Agents [20.69666656998877]
SentinelBenchは、時間進化モニタリングタスクのためのオープンソースのベンチマークである。
メール、カレンダー、ファイナンス、プロフェッショナルネットワーキング、エンターテイメントなど10の合成ウェブ環境に100のタスクがある。
タスク完了、反応時間、リソース使用量を計測し、応答性とコストのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-06-03T18:32:00Z) - GTA: Generating Long-Horizon Tasks for Web Agents at Scale [82.43869456830664]
我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
論文 参考訳(メタデータ) (2026-05-28T01:05:50Z) - SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows? [29.5539656241093]
Computer-Using Agents (CUA)は、より複雑な環境でのアクション実行に対するテキストベースの推論を超えて、大規模言語モデル(LLM)を急速に拡張している。
既存のベンチマークは、しばしば単純化された設定、孤立したタスク、短期水平相互作用に依存している。
6つのプロフェッショナルドメインにわたる23のデプロイ可能なシステム上に構築されたベンチマークには、現実的な作業シナリオに基づく106のタスクが含まれています。
実験の結果、LLMベースのエージェントがベンチで苦労していることが示され、最強のモデルでさえ、エンドツーエンドのタスクの4%未満を完了している。
論文 参考訳(メタデータ) (2026-05-15T09:35:15Z) - Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks [67.44219836008348]
我々はOdysseysについて紹介する。Odysseysは、ライブインターネット上で評価された実世界のブラウジングセッションから得られた200のロングホライゾンWebタスクのベンチマークである。
その結果,2進パス/フェイル評価は長距離設定では不十分であり,各Odysseysタスクに平均6.1グレードのルーリックをアノテートするルーリックに基づく評価が導入された。
最強のモデルは44.5%の成功率に達しており、将来の改善の余地は十分にある。
論文 参考訳(メタデータ) (2026-04-27T20:05:41Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - TOM-SWE: User Mental Modeling For Software Engineering Agents [75.28749912645127]
ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。
ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。
2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
論文 参考訳(メタデータ) (2025-10-24T16:09:51Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。