論文の概要: When Errors Become Narratives: A Longitudinal Taxonomy of Silent Failures in a Production LLM Agent Runtime
- arxiv url: http://arxiv.org/abs/2606.14589v1
- Date: Fri, 12 Jun 2026 16:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.976868
- Title: When Errors Become Narratives: A Longitudinal Taxonomy of Silent Failures in a Production LLM Agent Runtime
- Title(参考訳): エラーがナラティブになる時: LLM エージェント実行時の無声障害の経時的分類
- Authors: Wei Wu,
- Abstract要約: 2026年3月以降の連続生産におけるパーソナルエージェントランタイムにおけるサイレント障害の経時的観察を行った。
症例は22例, 完全根因性後遺症で, メタパターンは28回以上出現した。
我々は, (A) 環境, プラットフォーム構造, (B) 設計・評価ミスマッチ, (C) 誤飲・希釈, (D) 連鎖幻覚・製造, (E) 運用停止, 法医学的盲点の5種類の分類を導出する。
- 参考スコア(独自算出の注目度): 4.56904471801595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agent systems increasingly run as long-lived autonomous runtimes: scheduling jobs, calling tools, maintaining memory, and pushing results to humans. We present a longitudinal study of silent failures in one such system: a personal-assistant agent runtime in continuous production since March 2026, with roughly 40 scheduled jobs, 8 LLM providers, a tool-governance proxy, and a knowledge-base memory plane, defended by 4,286 unit tests and 827 governance checks. Over eight weeks we documented 22 incidents with full root-cause postmortems, in which one meta-pattern -- a failure whose error signal never reaches a human in actionable form -- manifested at least 28 times. We derive a five-class, mechanism-oriented taxonomy: (A) environment and platform quirks, (B) design-assumption mismatches, (C) error swallowing and dilution, (D) chained hallucination and fabrication, (E) operational omission and forensic blind spots. Class D is unique to LLM systems and the most dangerous: the system does not merely fail to report an error -- the LLM transforms it into fluent, plausible narrative delivered to the user. We term this fail-plausible: gray failure's differential observability escalated -- the observer is not just blind, it is convincingly lied to by the failure itself. Three findings: about 70% of silent failures were caught by human user-view observation, not tests or audits; a retrospective audit of 15 incidents found 0% ex-ante prevention but 87% regression blocking -- audits are regression engines, not prediction engines; incident latency (13 hours to 60 days) tracks failure mechanism, not code complexity -- the longest-lived failures lived in the seams between components, where no test runs. We describe the resulting defense framework and distill design principles for agent systems whose failures are loud, attributable, and boring. All postmortems and artifacts are public.
- Abstract(参考訳): LLMエージェントシステムは、ジョブのスケジューリング、ツールの呼び出し、メモリの維持、結果の人間へのプッシュといった、長期にわたる自律ランタイムとして、ますます運用されている。
2026年3月以降の連続生産における個人支援エージェントランタイム,約40のスケジュールジョブ,8のLCMプロバイダ,ツールガバナンスプロキシ,知識ベースメモリプレーン,4,286の単体テスト,827のガバナンスチェックなど,1つのシステムにおけるサイレント障害に関する縦断的研究を行った。
8週間にわたって、私たちは、完全な根本原因の死後の22件のインシデントを記録しました。
我々は, (A) 環境, プラットフォーム構造, (B) 設計・評価ミスマッチ, (C) 誤飲・希釈, (D) 連鎖幻覚・製造, (E) 運用停止, 法医学的盲点の5種類の分類を導出する。
クラスDはLLMシステム特有のものであり、最も危険である:システムは単にエラーを報告しない。
グレーの障害の差分可観測性はエスカレートした -- オブザーバは単に盲目であるだけでなく、失敗自体に間違いなく嘘をついているのです。
3つの発見:サイレント障害の約70%は、テストや監査ではなく、人間のユーザビューの観察によって捕らえられた。15回のインシデントの振り返り監査では、前処理の予防は0%だったが、回帰ブロックは87%だった。監査は、予測エンジンではなく回帰エンジンである。
本稿では,失敗が大きく,帰属性が高く,退屈なエージェントシステムに対する防御の枠組みと蒸留設計原則について述べる。
死後遺物や遺物はすべて公開されている。
関連論文リスト
- SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model [8.782590561222511]
本稿では,大規模言語モデル(LLM)計画における遅延故障評価ベンチマークであるSIMMERを紹介する。
SIMMERは77のアクション、262のユニークなオブジェクト、約46,800の可能な相互作用からなる世界モデルを定義している。
次に、ステートマシンエグゼキュータを利用して、ワールドモデルに対する計画の検証を行い、即時プレコンディション違反、潜伏するハザード、不可逆的な障害を検出する。
論文 参考訳(メタデータ) (2026-06-12T15:53:16Z) - Catching One in Five: LLM-as-Judge Blind Spots in Production Multi-Turn Transaction Agents [45.148328075418156]
デプロイされた多ターン食品・飲料注文エージェントについて検討し,実際の品質問題の数を測定した。
私たちの盲点分類は、失敗はランダムではなく構造化されていることを示している。
プロダクションマルチターンエージェントでは、自動判断はリグレッションフロアであり、人間のレビューの代わりにはならない。
論文 参考訳(メタデータ) (2026-06-09T02:11:01Z) - Characterizing the Failure Modes of LLMs in Resolving Real-World GitHub Issues [10.34693262597204]
大きな言語モデル(LLM)は、現実のGitHub問題を解決するために、ますます多くデプロイされている。
本稿では,SWE-bench検証データセット上で,Claude 4.5 Sonnet,Gemini 3 Pro,GPT-5の3つの最先端モデルを評価する。
全治験900回にわたる243回の失敗試験の根本原因と症状の厳密な手作業による分析を行った。
論文 参考訳(メタデータ) (2026-05-12T15:34:57Z) - FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems [9.562231408217281]
マルチエージェントLLMシステム(MAS)はタスクをサブタスクに分割することで複雑なヒューマンタスクを自動化するために採用されている。
MASアプリケーションは無限ループや失敗したツール呼び出しなど、頻繁に障害に遭遇する。
従来のソフトウェアテスト技術は、LLMエージェント仕様の欠如、MASの大規模な行動空間、意味に基づく正当性判定の欠如により、そのような障害を検出するのに効果がない。
本稿では、MASに適した新しいテストフレームワークであるFLAREについて述べる。FLAREは、MASのソースコードを入力として、エージェント定義から仕様と行動空間を抽出する。
論文 参考訳(メタデータ) (2026-04-07T00:47:37Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base [30.705524808195268]
大きな言語モデル(LLM)は印象的な言語能力を持っているが、しばしば事実の知識を忠実に保持することができない。
本稿では,LLMにおける知識不足(エラー)を発見するための,スケーラブルで効率的なフレームワークであるSEAを提案する。
SEAは自動能力発見の40.7倍、AutoBencherの26.7%以上の知識エラーを明らかにしている。
論文 参考訳(メタデータ) (2025-03-30T08:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。