論文の概要: Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops
- arxiv url: http://arxiv.org/abs/2606.08960v1
- Date: Mon, 08 Jun 2026 03:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.668452
- Title: Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops
- Title(参考訳): 逆ハッカー・ピクセルループを用いたハードニングエージェントベンチマーク
- Authors: Ziqian Zhong, Ivgeni Segal, Ivan Bercovich, Shashwat Saxena, Kexun Zhang, Aditi Raghunathan,
- Abstract要約: エージェントベンチマークは、通常手書きで不安定な結果検証器で評価され、ハックに対して報酬を与えるために開放される。
5つの端末エージェントベンチマークで1,968のタスクを監査し、323 (16%) がフロンティアモデルによってハック可能であることを発見した。
我々は,タスクごとの手動パッチを使わずに,エクスプロイトに耐性のあるバリデーションを構築する手法であるHacker-fixer loopを紹介した。
- 参考スコア(独自算出の注目度): 30.90132709192538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking. We audit 1,968 tasks across five terminal-agent benchmarks and find 323 (16%) hackable by frontier models given only the task description. This corrupts both leaderboard rankings and RL training signal, yet the standard response is manual and reactive. We introduce the hacker-fixer loop, a method for building exploit-resistant verifiers without per-task manual patching. The loop alternates three LLM agents: a hacker tries to pass the verifier without solving the task, a fixer patches the verifier to reject each discovered exploit, and a solver confirms the patched verifier still admits legitimate solutions. The loop iterates: each patch reshapes what the verifier rewards, surfacing the next exploit. We further add verifier access, and let patches transfer across tasks, to broaden the exploits the loop discovers. On KernelBench, the loop drives the attack success rate from 62% to 0% on a held-out corpus of publicly reported exploits. We also find that weaker agents in the loop can defend against much stronger hackers: Gemini 3 Flash's loop drives the stronger Gemini 3.1 Pro and Claude Opus 4.7's attack success rate from 76% and 61% to 0% on KernelBench, and Gemini 3.1 Pro's from 39% to 17% on Terminal Bench across 77 tasks. We release Terminal Wrench (323 hackable environments, 3,632 hack trajectories) as a snapshot of the current attack surface, our patched verifiers, the exploits the loop discovered, and our implementation as a basis for future work.
- Abstract(参考訳): エージェントベンチマークは、通常手書きで不安定な結果検証器で評価され、ハックに対して報酬を与えるために開放される。
5つの端末エージェントベンチマークで1,968のタスクを監査し、323 (16%) がフロンティアモデルによってハック可能であることを発見した。
これはリーダーボードランキングとRLトレーニングシグナルの両方を破損させるが、標準応答は手動とリアクティブである。
我々は,タスクごとの手動パッチを使わずに,エクスプロイトに耐性のあるバリデーションを構築する手法であるHacker-fixer loopを紹介した。
このループは3つのLSMエージェントを交互に置き換える: ハッカーはタスクを解決せずに検証をパスしようと試み、フィクスチャは検証者をパッチして発見されたエクスプロイトを拒絶する。
ループは繰り返します: 各パッチは検証者が報いるものを再認識し、次のエクスプロイトを克服します。
さらに検証者アクセスを追加し、タスク間でパッチを転送して、ループが発見するエクスプロイトを広げます。
KernelBenchでは、公に報告されたエクスプロイトのホールドアウトコーパスにおいて、攻撃成功率を62%から0%に駆動する。
Gemini 3 Flashのループはより強力なGemini 3.1 Proを駆動し、Claude Opus 4.7の攻撃成功率は76%から61%から0%に、Gemini 3.1 Proは77タスクにわたるターミナルベンチで39%から17%に向上した。
我々は、現在の攻撃面のスナップショット、パッチ付き検証器、発見されたループのエクスプロイト、そして将来の作業の基礎となる実装として、ターミナルレンチ(323のハック可能な環境、3,632のハックトラジェクトリ)をリリースします。
関連論文リスト
- MalSkillBench: A Runtime-Verified Benchmark of Malicious Agent Skills [24.371534406647978]
MalSkillBenchは、悪質なエージェントスキルの最初のランタイム検証ベンチマークである。
コードインジェクションは94.5%に達するが、迅速なインジェクションは75.8%に過ぎない。
データセット、パイプライン、ベースライン、結果をリリースしています。
論文 参考訳(メタデータ) (2026-06-05T10:43:19Z) - Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack [51.54835866517547]
BenchJackは、コーディングエージェントがベンチマークを監査し、報酬をハックする可能性のあるエクスプロイトを識別するシステムである。
BenchJackを、ソフトウェアエンジニアリング、Webナビゲーション、デスクトップコンピューティング、端末操作にまたがる10の人気のあるエージェントベンチマークに適用する。
BenchJackは、単一のタスクを解決することなく、ほとんどのベンチマークでほぼ完璧なスコアを達成する報奨ハックのエクスプロイトを合成する。
論文 参考訳(メタデータ) (2026-05-12T19:22:45Z) - Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use [0.016201337438609787]
ツールアクセスを備えた強化学習(RL)訓練された言語モデルエージェントは、コーディングアシスタント、研究ツール、自律システムにますます多くデプロイされている。
本稿では,Reward Hacking Benchmark (RHB)について紹介する。
OpenAI, Anthropic, Google, DeepSeekの13のフロンティアモデルを評価した。
論文 参考訳(メタデータ) (2026-05-03T07:10:42Z) - Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories [30.901327091925385]
331の端末エージェントベンチマーク環境のサブセットである Terminal Wrench をリリースする。
データセットには3,632のハックトラジェクトリと2,352の正当なベースライントラジェクトリが含まれている。
エクスプロイトは、単純な出力スプーフィングからスタックフレームのイントロスペクションまで様々である。
論文 参考訳(メタデータ) (2026-04-19T20:04:02Z) - Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。