論文の概要: A Topology-Aware, Memory-Centric Architecture that Separates Root-Cause Derivation from Root-Cause Explanation
- arxiv url: http://arxiv.org/abs/2606.20758v1
- Date: Thu, 18 Jun 2026 09:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:05:50.107036
- Title: A Topology-Aware, Memory-Centric Architecture that Separates Root-Cause Derivation from Root-Cause Explanation
- Title(参考訳): 根管記述から根管導出を分離するトポロジーを考慮したメモリ中心アーキテクチャ
- Authors: Momil Seedat,
- Abstract要約: 自律的な操作において欠落する要素は、より良い異常検出やより大きな言語モデルではなく、運用メモリである、と我々は主張する。
OPS C ORTEXは、動作中のマルチエージェントプロトタイプで、このメモリを4層に整理し、フィールドが通常混在している2つのタスクを分離する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern microservice deployments fail in ways that are easy to detect and hard to explain. When a fault propagates along service dependencies, alerts fire in floods, dashboards multiply, and the scarce resource, an engineer who understands how the services relate, is consumed reconstructing context that the monitoring stack discarded. We argue that the missing ingredient in autonomous operations is not a better anomaly detector or a larger language model, but operational memory: a persistent, structured representation of how a system normally behaves, how its parts depend on one another, and how it has failed before. We present O PS C ORTEX, a working multi-agent prototype that organizes this memory into four tiers and uses it to separate two tasks the field usually conflates: deriving a root cause and explaining it. Root cause is computed deterministically from a learned dependency graph and the temporal ordering of threshold crossings; a large language model (LLM) is then asked only to explain, confirm, and recommend, using evidence the system has already assembled. We motivate the design with two documented production cascading failures, review representative literature on observability, anomaly detection, graph-based localization, and LLM-assisted diagnosis, and show how each architectural choice maps directly to a failure mode those incidents exhibit. The prototype is validated on an instrumented e-commerce benchmark with eight injectable failure scenarios.
- Abstract(参考訳): 現代のマイクロサービスデプロイメントは、検出が容易で説明が難しい方法で失敗する。
障害がサービスの依存関係に沿って伝播し、洪水の火災を警告し、ダッシュボードを乗っ取り、リソースが不足すると、サービスがどのように関連しているかを理解するエンジニアは、監視スタックが破棄した再構築コンテキストを消費する。
自律的な操作において欠落する要素は、より優れた異常検出やより大きな言語モデルではなく、運用メモリである、システムがどのように振る舞うか、その部品がどのように依存するか、これまでどのように失敗したかという、永続的で構造化された表現である、と私たちは主張する。
OPS C ORTEXは、動作中のマルチエージェントプロトタイプで、このメモリを4層に整理し、フィールドが通常混在している2つのタスクを分離する。
ルート原因は学習した依存グラフとしきい値交差の時間的順序から決定的に計算される; 大規模言語モデル(LLM)は、システムが既に組み立てた証拠を使用して、説明、確認、推奨のみを要求される。
我々は,2つの文書化されたプロダクションカスケード障害による設計の動機付け,可観測性,異常検出,グラフベースのローカライゼーション,LCMによる診断に関する代表文献のレビュー,そして,それぞれのアーキテクチャ選択が,それらのインシデントが示す障害モードに直接マップする方法を示す。
プロトタイプは、8つのインジェクタブル障害シナリオを備えた電子商取引ベンチマークで検証されている。
関連論文リスト
- Auditable Graph-Guided Root Cause Analysis for Kubernetes Incidents [1.116726665785374]
LLM推論と特殊なツールを組み合わせたグラフ誘導RCAエージェントであるグラフトラバースエージェントを提案する。
我々は、読み取り専用エビデンス収集、伝搬認識診断、有界実行、独立に検証された検証を含む運用上の制約をマップする。
ある固定されたqwenオーバージャッジによってスコアされたITBenchスナップショットでは、監査されたシステムは、同じシステムの初期のイテレーションに対してルート因果F1を上昇させる。
論文 参考訳(メタデータ) (2026-06-07T12:05:09Z) - Towards Self-Improving Error Diagnosis in Multi-Agent Systems [31.04613892300063]
セマンティック障害帰属のための自己改善フレームワークであるErrorProbeを紹介する。
ErrorProbeは、責任あるエージェントと発生したエラーステップを特定する。
検証されたエピソードメモリを維持しており、実行可能証拠によってエラーパターンが確認された場合にのみ更新される。
論文 参考訳(メタデータ) (2026-04-19T23:13:05Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Arbiter: Detecting Interference in LLM Agent System Prompts [0.0]
Arbiterは、システムプロンプト内の干渉パターンを検出するために、形式的評価ルールとマルチモデルLCMスカーリングを組み合わせたフレームワークである。
Claude Code (Anthropic), Codex CLI (OpenAI), Gemini CLI (Google)の3つの主要なコーディングエージェントシステムに適用される。
論文 参考訳(メタデータ) (2026-03-09T22:29:47Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - FVDebug: An LLM-Driven Debugging Assistant for Automated Root Cause Analysis of Formal Verification Failures [8.530369312832084]
障害トレースを実行可能な洞察に変換するインテリジェントなシステムであるFV Debugを紹介します。
提案手法は,(1)非巡回グラフに障害トレースを構造化する因果グラフ合成,(2)不審なノードの特定を促すバッチ型Large Language Model (LLM)解析を用いたグラフスキャナ,(3)高レベルの因果説明を生成するためのエージェント的物語探索を活用したInsight Roverを特徴とする。
論文 参考訳(メタデータ) (2025-09-16T20:22:10Z) - FaultExplainer: Leveraging Large Language Models for Interpretable Fault Detection and Diagnosis [7.161558367924948]
本稿では,テネシー・イーストマン・プロセス(TEP)における障害検出,診断,説明の改善を目的とした対話型ツールであるFactExplainerを提案する。
FaultExplainerは、リアルタイムセンサデータ可視化、主成分分析(PCA)に基づく障害検出、および大規模言語モデル(LLM)を利用した対話型ユーザインタフェースにおける上位コントリビューション変数の識別を統合する。
2つのシナリオでLLMの推論能力を評価する。1つは歴史的根本原因が提供される場合であり、もう1つは以前に見つからなかった障害の課題を模倣しない場合である。
論文 参考訳(メタデータ) (2024-12-19T03:35:06Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。