論文の概要: Knowledge-Based Zero-Replay Debugging of Multi-Agent LLM Traces
- arxiv url: http://arxiv.org/abs/2606.14805v1
- Date: Thu, 11 Jun 2026 22:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.24361
- Title: Knowledge-Based Zero-Replay Debugging of Multi-Agent LLM Traces
- Title(参考訳): 知識に基づくマルチエージェントLPMトレースのゼロ再生デバッグ
- Authors: Dong Ho Kang, Hyeonjeong Cha, Daein Weon,
- Abstract要約: 我々は、知識に基づく意思決定支援問題としてトレースデバッグの枠組みを定めている。
ゼロ再生対効果予測を定式化する。
1つの学習からランクまでの勾配付き予測器は、トレースごとのローカライゼーションを上昇させる。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable operation of multi-agent large language model (LLM) systems depends on debugging long execution traces, where the few causally decisive events are buried in unstructured logs of messages, routes, memory writes, and tool calls. The standard tool is counterfactual replay (rewind, edit, and re-run the trajectory to measure each event's effect), but its cost grows linearly with the number of candidate events, making exhaustive replay infeasible at scale. We frame trace debugging as a knowledge-based decision-support problem. Each trace is compiled into a structured event knowledge graph over routing, memory, tool-use, uncertainty, and latent evidence, and a calibrated predictor decides where a scarce replay budget should be spent. We do not propose a new replay oracle; we propose a method to predict its results without paying the replay cost. We formulate zero-replay counterfactual-effect prediction: given a trace under a fixed budget, predict which events the oracle would mark high-effect before any replay is performed. BranchPoint-Latent is a lightweight predictor over observable, structural, uncertainty, and latent features of the knowledge graph. Calibrated against a deterministic replay oracle across 37 trace families, a single learning-to-rank gradient-boosted predictor raises per-trace localization (Branch Recall@5) from 0.73 to 0.93 on held-out families at zero oracle-replay cost. Rather than claiming universal dominance, we characterize when cheap graph centrality suffices and when learned evidence is necessary. The result is an auditable, cost-efficient decision-support system for AI-reliability debugging, positioned explicitly on the cost-accuracy frontier with reproducible artifacts.
- Abstract(参考訳): マルチエージェント大規模言語モデル(LLM)システムの信頼性の高い操作は、長い実行トレースのデバッグに依存する。
標準的なツールは反ファクトリプレイ(リフレクション、編集、各イベントの効果を測定するための軌道の再実行)であるが、そのコストは候補イベントの数とともに線形に増加し、大規模なリプレイが不可能になる。
我々は、知識に基づく意思決定支援問題としてトレースデバッギングの枠組みを定めている。
各トレースは、ルーティング、メモリ、ツール使用、不確実性、潜伏したエビデンスに関する構造化されたイベント知識グラフにコンパイルされ、キャリブレーションされた予測器が、再生予算の少ない場所を決定する。
我々は新しいリプレイオラクルを提案しず、リプレイコストを払わずに結果を予測する方法を提案する。
我々は、ゼロ・リプレイの対効果予測を定式化し、固定された予算の下でトレースを与えられると、どのイベントがどのオラクルがどのリプレイを行う前にハイ・エフェクトを示すかを予測する。
BranchPoint-Latentは、知識グラフの可観測性、構造、不確実性、潜伏性に関する軽量な予測器である。
37のトレースファミリーにまたがる決定論的リプレイオラクルに対して校正された1つの学習からランクまでの勾配予測器は、ゼロのオラクル再生コストで保留されたファミリーで0.73から0.93まで、トレースごとのローカライゼーション(ブランチ・リコール@5)を上昇させる。
普遍的な支配を主張するよりも、より安価なグラフ中心性が十分であり、学習された証拠が必要なときを特徴付ける。
その結果、AI信頼性デバッグのための監査可能な、コスト効率の高い意思決定支援システムが、再現可能なアーティファクトを備えたコスト精度フロンティアに明確に配置された。
関連論文リスト
- Amnesia: A Stealthy Replay Attack on Continual Learning Dreams [39.83783914171527]
既存のCL攻撃では入力やトレーニングパイプライン(ポジティング/バックドア)が変更され、明示的な監査可能な制約がほとんど含まれず、リアリズムが制限される。
2つの予算で劣化を最大化する再生合成攻撃であるアムネシアを導入する。
挑戦的なCLベンチマークと強力なリプレイベースラインを越えて、アムネシアは一貫して最終精度(ACC)を保ち、下位転送(-BWT)を悪化させる。
論文 参考訳(メタデータ) (2026-06-10T20:27:06Z) - Auditable Graph-Guided Root Cause Analysis for Kubernetes Incidents [1.116726665785374]
LLM推論と特殊なツールを組み合わせたグラフ誘導RCAエージェントであるグラフトラバースエージェントを提案する。
我々は、読み取り専用エビデンス収集、伝搬認識診断、有界実行、独立に検証された検証を含む運用上の制約をマップする。
ある固定されたqwenオーバージャッジによってスコアされたITBenchスナップショットでは、監査されたシステムは、同じシステムの初期のイテレーションに対してルート因果F1を上昇させる。
論文 参考訳(メタデータ) (2026-06-07T12:05:09Z) - Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - Affordance Agent Harness: Verification-Gated Skill Orchestration [45.231685718099264]
Affordance groundingは、オープンワールドのシーンでエージェントがどこでどのように対話すべきかを特定する必要がある。
本稿では,エビデンスストアとコストコントロールを備えたクローズドループランタイムであるAffordance Agent Harnessを提案する。
論文 参考訳(メタデータ) (2026-05-01T13:45:16Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。
このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。
その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文 参考訳(メタデータ) (2026-02-06T16:59:48Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation [118.18977078626776]
イベントセグメンテーション/バウンダリ検出のためのエンドツーエンドの自己教師型学習フレームワークを提案する。
本フレームワークは, イベント境界を再構成誤差で検出するトランスフォーマーに基づく特徴再構成手法を利用する。
私たちの研究の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
論文 参考訳(メタデータ) (2021-09-30T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。