論文の概要: ClayBuddy: A Framework, Evaluation, & Mitigation of Coding Agent Failures
- arxiv url: http://arxiv.org/abs/2606.19380v2
- Date: Fri, 19 Jun 2026 02:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.022414
- Title: ClayBuddy: A Framework, Evaluation, & Mitigation of Coding Agent Failures
- Title(参考訳): ClayBuddy: コーディングエージェント障害のフレームワーク、評価、緩和
- Authors: Kenneth Ge, Andre Assis,
- Abstract要約: 障害モードは、不特定性、能力エラー、エージェントハーネスエラーの3つのメカニズムから派生したものとして研究する。
我々はClayBuddyを提案する。ClayBuddyはユーザの好みを形作るハーネスで、モデルのインセッションで修正してこれらのエラーを軽減できる。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software engineering and deployment are increasingly delegated to AI coding agents. The scale of their adoption is surfacing rare, but highly destructive, failure modes. In this paper, we study these failure modes as stemming from three distinct mechanisms: underspecification, where default model behavior is unsafe; capability errors, where the safe action is available but the model does not adhere to it due to bias or capability limitations; and agent harness errors, where the model fails to execute the safe action through the harness. We assess these across 8 different evaluations, each inspired by real-life deployment failures, totaling 20 coding environments and 59 synthetic transcript templates. Based on this evaluation, we propose ClayBuddy, a harness that molds to user preferences and can be modified by the model in-session, to mitigate these errors. By adding tools for the agent to edit its own context, an extended system prompt, a customizable command classifier, and deterministic guardrails, we show that ClayBuddy is safer across a statistically significant number of samples. Thus, we suggest concrete mitigations for current coding agents and a design philosophy for future agent harness features.
- Abstract(参考訳): ソフトウェアエンジニアリングとデプロイメントは、ますますAIコーディングエージェントに委譲される。
採用の規模は珍しいが、非常に破壊的であり、失敗モードである。
本稿では、これらの障害モードを、デフォルトモデル動作が安全でない不特定性、安全なアクションが利用できるが、バイアスや能力制限のためにモデルが従わない機能エラー、モデルがハーネスを介して安全なアクションを実行できないエージェントハーネスエラーの3つのメカニズムから派生したものとして研究する。
実運用の失敗にインスパイアされた8つの評価、合計20のコーディング環境と59の合成テキストテンプレートを評価した。
この評価に基づいて,ユーザの好みを型にし,モデル内から修正できるハーネスであるClayBuddyを提案し,これらのエラーを軽減した。
エージェントが自身のコンテキストを編集するためのツール、拡張システムプロンプト、カスタマイズ可能なコマンド分類器、決定論的ガードレールを追加することで、ClayBuddyは統計的にかなりの数のサンプルに対してより安全であることを示す。
そこで本研究では,現行の符号化エージェントに対する具体的な緩和と,将来のエージェントハーネス機能の設計思想を提案する。
関連論文リスト
- The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。
評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。
メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文 参考訳(メタデータ) (2026-06-03T04:58:17Z) - Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents [7.806845513717345]
我々は、強調融解と呼ばれる新しいタイプのエージェント障害を導入し、特徴付けし、測定する。
融解は既存の信頼性ベンチマークや安全性ベンチマークでは捉えられないため、融解挙動の分類法を開発する。
次に、シミュレーションされたローカルおよびリモートエラーをロールアウト環境に注入するためのエージェント非依存のインフラを実装した。
論文 参考訳(メタデータ) (2026-05-18T22:03:38Z) - Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - Building an Internal Coding Agent at Zup: Lessons and Open Questions [1.6954927683791832]
内部のコーディングエージェントは、プロトタイプのパフォーマンスとプロダクションの準備ができている間にギャップに直面します。
目標ツール設計と層状安全ガードレールにより,迅速な工学よりもエージェント信頼性が向上したことを示す。
これらの結果は、モデルを取り巻くエンジニアリング上の決定 -- モデル自体ではなく -- が、実際にコーディングエージェントが真の価値を提供するかどうかを決定することを示唆している。
論文 参考訳(メタデータ) (2026-04-10T18:28:59Z) - AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents [31.649268608215817]
コンピュータ利用エージェントの有害行動を評価するベンチマークである textbfAgentHazard を提案する。
我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを使用して、Claude Code、OpenClaw、IFlowを評価した。
論文 参考訳(メタデータ) (2026-04-03T10:29:31Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Applying Refusal-Vector Ablation to Llama 3.1 70B Agents [0.0]
本研究では,Llama 3.1 70Bにリファレルベクターアブレーションを適用し,単純なエージェントスキャフォールディングを実装し,制限のないエージェントを生成する。
以上の結果から,これらの拒否拒否ベクターアブレーションモデルが,流産やフィッシング攻撃などの有害なタスクを完了できることが示唆された。
Llama 3.1 インストラクションモデルでは,修正なしに最も有害なタスクを実行できるため,チャットモデルにおける安全性の微調整はエージェント動作に適さないことが示唆された。
論文 参考訳(メタデータ) (2024-10-08T13:42:36Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。