論文の概要: Causal Agent Replay: Counterfactual Attribution for LLM-Agent Failures
- arxiv url: http://arxiv.org/abs/2606.08275v1
- Date: Sat, 06 Jun 2026 17:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.010452
- Title: Causal Agent Replay: Counterfactual Attribution for LLM-Agent Failures
- Title(参考訳): 因果的エージェントのリプレイ: LLM-Agent 障害に対する因果的寄与
- Authors: Jaineet Shah,
- Abstract要約: Causal Agent Replay (CAR) は、エージェントが構造的因果モデルとして実行されることをモデル化する。
ステップにダブルオペレーションを適用し、同じポリシーの下で軌道を再実行します。
CARはオープンソースで、ホストまたはフリーのローカルモデルで動作する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM agent fails -- issues a refund it should not have, calls the wrong tool, leaks data -- existing tooling answers what happened (observability) or whether it passed (evaluation), but not which step caused the failure. The obvious heuristics are wrong: the step that executes the harmful action is usually not the step that decided on it, and LLM-judge attribution is correlational and unreliable (state-of-the-art step-level accuracy on the Who&When benchmark is about 14%). We present Causal Agent Replay (CAR), which answers the question by intervention: it models an agent run as a structural causal model, applies a do-operation to a step, and re-executes the trajectory forward under the same stochastic policy, measuring the shift in the outcome distribution. We define an intervention algebra over agent steps, a single-step contrastive estimator whose point-of-commitment rule resolves a confound specific to stochastic run-forward, and a budget-bounded Monte-Carlo Shapley estimator that splits credit across interacting steps. Every effect is reported with confidence intervals. We validate against synthetic structural causal models with planted ground truth: the contrastive estimator recovers the pivotal step, and Shapley recovers a two-step interaction (0.44, 0.45, ~0; efficiency sum 0.909 versus the analytic 0.91). CAR is open source and runs on hosted or free local models.
- Abstract(参考訳): LLMエージェントがフェールした場合 -- 返金を発行し、間違ったツールを呼び出し、データをリークします -- 既存のツールが、何が起きたか(可観測性)、あるいはそれが通過したか(評価)に答えるが、どのステップが失敗を引き起こしたのかはわからない。
有害なアクションを実行するステップは、通常はそれを決定するステップではなく、LLM-judge属性は相関性があり信頼できない(Who&Whenベンチマークの最先端のステップレベルの精度は約14%)。
エージェントを構造的因果モデルとしてモデル化し、ステップに二重動作を適用し、同じ確率的方針の下で軌道を前方に再実行し、結果分布の変化を測定する。
我々は、エージェントステップ上の介入代数、一段階のコントラスト推定法で確率的ランフォワードに特有な共役を解くこと、および対話的なステップ間でクレジットを分割する予算付きモンテカルロ・シャプリー推定法を定義する。
すべての効果は信頼区間で報告される。
コントラスト推定器はピボットステップを回復し、Shapleyは2段階の相互作用(0.44, 0.45, ~0; 効率 0.909 対解析 0.91)を回復する。
CARはオープンソースで、ホストまたはフリーのローカルモデルで動作する。
関連論文リスト
- TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文 参考訳(メタデータ) (2026-06-04T07:15:43Z) - FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search [11.638321375070047]
LLMエージェントトラジェクトリにおける障害帰属の診断フレームワークであるFALATを提案する。
我々は、アルゴリズム生成と手作りのマルチエージェント障害軌跡を含むWho&WhenベンチマークでFALATを評価する。
論文 参考訳(メタデータ) (2026-05-30T15:11:35Z) - VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention [2.0838114053126366]
LLM批判モデルによる積極的な介入は、しばしば信頼性を向上させると仮定されるが、展開時の影響はよく理解されていない。
高いオフライン精度 (AUROC 0.94) を持つバイナリLLM批判者は, にもかかわらず, 高い性能劣化を引き起こす可能性がある。
我々は、50のタスクからなる小さなパイロットを用いて、完全な配備を必要とせず、介入が助けになるか、害を与えるかを見積もる事前デプロイテストを提案する。
論文 参考訳(メタデータ) (2026-02-03T10:02:50Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。