論文の概要: From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.09863v1
- Date: Mon, 01 Jun 2026 00:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.966352
- Title: From Confident Closing to Silent Failure: Characterizing False Success in LLM Agents
- Title(参考訳): 自信のクロースから無罪の失敗へ:LLM剤の偽成功を特徴づける
- Authors: Laksh Advani,
- Abstract要約: 単一制御のtau2-benchドメインでは45~48%、二重制御の通信では3%、AppWorldの自己評価のコーディングエージェントトラジェクトリでは75.8%、明確なステータスクレームでは75.8%である。
TF-IDF検出器は、tau2-benchでタスク非結合のAUROC 0.83、AppWorldで0.95を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents can fail silently by asserting task completion when the environment state shows otherwise. We study this failure mode, false success, across two agent benchmarks: 9,876 tau2-bench trajectories from 8 model families and 1,879 AppWorld trajectories from 4 model families with text-independent ground truth. False success is common but varies by setting: 45--48% of failures in single-control tau2-bench domains, 3% in dual-control telecom, and 75.8% among AppWorld self-assessing coding-agent trajectories with explicit status claims. LLM judges fail reliably: no configuration across 5 judges, 5 prompt strategies, and full task specifications exceeds AUROC 0.65 on tau2-bench, and the same judges reach only 0.54 AUROC on AppWorld API-call traces. Judges rely on surface completion proxies -- confident closing language in tau2-bench and coarse action-sequence volume in AppWorld -- rather than verified state changes. Lightweight TF-IDF detectors achieve task-disjoint AUROC 0.83 on tau2-bench and 0.95 on AppWorld, recovering 4--8x more false successes than the best judge at the same flag rate with 3,300x lower latency. These results suggest that production monitoring should use lightweight, domain-calibrated detectors as triage signals rather than relying on LLM judges as the primary monitor for false success.
- Abstract(参考訳): LLMエージェントは、環境状態がなければタスク完了を主張することで、静かに失敗する可能性がある。
8種類のモデルファミリーの9,876 Tau2-bench trajectoriesと4種類のモデルファミリーの1,879 AppWorld trajectoriesと、テキストに依存しない基底真理を持つ。
単一制御のtau2-benchドメインでは45~48%、二重制御の通信では3%、AppWorldの自己評価のコーディングエージェントトラジェクトリでは75.8%、明確なステータスクレームでは75.8%である。
LLMの審査員は確実に失敗する。5人の審査員、5人の迅速な戦略、および完全なタスク仕様は、tau2-benchでAUROC 0.65を超え、AppWorld APIコールトレースで0.54 AUROCにしか達しない。
審査員は、検証された状態変更ではなく、サーフェス補完プロキシ -- tau2ベンチの自信あるクローズ言語と、AppWorldの粗いアクションシーケンスボリューム -- に依存している。
TF-IDF検出器は、tau2-benchでタスク非結合のAUROC 0.83、AppWorldで0.95を達成し、同一のフラグレートで3300倍のレイテンシで、最高の判定値よりも4~8倍の偽の成功を回復した。
これらの結果から, 生産監視は, LLMの判断を誤った成功の主モニターとするのではなく, 軽量で領域校正された検出器をトリアージ信号として用いることが示唆された。
関連論文リスト
- SieveFL: Hierarchical Runtime-Aware Pruning for Scalable LLM-Based Fault Localization [0.0]
自動障害ローカライゼーションは、観測されたテスト失敗を数千の候補にわたる責任あるメソッドに接続する必要がある。
攻撃的なLLM前フィルタリングによってこの緊張を解消する5段階階層型フレームワークであるSieveFLを提案する。
論文 参考訳(メタデータ) (2026-05-13T13:16:41Z) - VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference [0.0]
VERDI(verification-Decomposed Inference Inference)は、構造化された裁判官から信頼を抽出する手法である。
VERDIは各評価をサブチェックに分解し、3つの構造信号を導出する。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
論文 参考訳(メタデータ) (2026-05-11T23:39:19Z) - Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice [0.0]
実行サンドボックス(L1)、意図検証(L2)、ゼロトラスト間認証(L3)、不変監査ロギング(L4)からなる4層フレームワークであるレイヤガバナンスアーキテクチャ(LGA)を提案する。
LGAを評価するために、1,081のツールコールサンプル(インジェクション、RAG中毒、悪意のあるスキルプラグインなど)のベンチマーク(中国語のオリジナル、機械翻訳による英語)を構築し、それをオープンソースの代表的なエージェントフレームワークであるOpenClawに適用する。
論文 参考訳(メタデータ) (2026-03-07T13:05:14Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。