論文の概要: JustDiag!: A Diagnostic Justification Engine for Accountable Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2606.19407v1
- Date: Wed, 17 Jun 2026 14:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.445625
- Title: JustDiag!: A Diagnostic Justification Engine for Accountable Root Cause Analysis
- Title(参考訳): JustDiag!:説明責任根本原因分析のための診断正当性エンジン
- Authors: Tingzhu Bi, Xinrui Jiang, Xun Zhang, Pengcheng Su, Congjie He, Jinglin Li, Ping Wang, Meng Ma,
- Abstract要約: 我々は、JustDiagが証拠、発見、競合する仮説、紛争、そして次のチェックに対して明確なプロセス状態を維持していることを示す。
JustDiagは、診断の正当化なしに一致した制御に対して、より強力な結果とプロセススコアを達成した。
- 参考スコア(独自算出の注目度): 10.061964398830142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can produce fluent root cause analyses, but fluent final answers alone are insufficient evidence for accountability in high-stakes operations. In real incident response, engineers need to know what evidence supported a diagnosis, which alternatives were considered, where contradictions remained, and whether the system resolved the case or preserved uncertainty. We address this gap with JustDiag, a diagnostic justification engine for RCA that maintains an explicit process state over evidence, findings, competing hypotheses, conflicts, and next checks. We evaluated the system on 66 real-world incidents using a two-layer protocol that separately scores final-answer quality and process quality. Relative to a matched control without diagnostic justification, JustDiag achieved stronger outcome and process scores, while accepting slightly lower terminal completion due to more calibrated non-closure. These results suggest that accountable RCA requires explicit diagnostic justification artifacts and process-aware evaluation, not only fluent final answers.
- Abstract(参考訳): 大規模言語モデルは、流動的な根本原因分析を生成できるが、流動的な最終回答だけでは、高い評価操作における説明可能性の不十分な証拠である。
実際のインシデント対応では、どの証拠が診断を支持したか、どの代替案が検討されたか、矛盾点が残っているか、システムが事件を解決したか、あるいは不確実性を保ったかを知る必要がある。
このギャップに対処するJustDiagは、証拠、発見、競合する仮説、矛盾、そして次のチェックに関する明確なプロセス状態を維持するRCAの診断正当性エンジンです。
最終回答の品質とプロセス品質を個別に評価する2層プロトコルを用いて,66件の現実世界のインシデントに対するシステム評価を行った。
診断正当性のない整合制御に対して、JustDiagは、より校正された非閉鎖性のため、若干低い終端完了を受け入れる一方で、より強力な結果とプロセススコアを達成した。
これらの結果から,アカウンタブルRCAには明確な診断正当化アーティファクトとプロセス認識評価が必要であることが示唆された。
関連論文リスト
- AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora [6.956097396264084]
AuthTraceは,主題的に密集した単一著者コーパスに基づいて構築された診断ベンチマークである。
AuthTraceは明示的な引用されたエビデンス、正確なファンインアノテーション、エビデンスリコール、エビデンス精度、答えの正当性を測定する統一パックレベルのプロトコルを提供する。
論文 参考訳(メタデータ) (2026-05-25T03:10:52Z) - DDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs [21.52456139726765]
ほとんどの医療AIベンチマークは、関連するコンテキストを事前に明らかにし、最終回答のみをスコア付けする。
MDX-TRACEはマルチモーダル・ニューロラジオロジーのための医師適応型ベンチマークである。
211件の難治性症例に対して、隠れた証拠の下で診断の軌跡を評価する。
論文 参考訳(メタデータ) (2026-05-22T13:41:10Z) - MultiDx: A Multi-Source Knowledge Integration Framework towards Diagnostic Reasoning [66.94527468532843]
2段階の診断推論フレームワークであるMultiDxを提案する。
まず Web 検索,SOAP 形式の症例,臨床症例データベースから知識を活用することにより,疑わしい診断と推論経路を生成する。
そして、マッチング、投票、および差分診断を通じて、複数のパースペクティブエビデンスを統合し、最終的な予測を生成する。
論文 参考訳(メタデータ) (2026-04-27T08:46:29Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis [0.0]
Cross-Context Verification (CCV) は、N個の独立したセッションで同じベンチマーク問題を解決するブラックボックス方式である。
9つのSWE分岐検証問題(45の試験、クロードオプス4.6、温度0)では、CCVは汚染されたものと真の推論との間の完全な分離を達成する。
論文 参考訳(メタデータ) (2026-03-23T00:18:34Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - GALA: Can Graph-Augmented Large Language Model Agentic Workflows Elevate Root Cause Analysis? [9.394057684388027]
本稿では,マイクロサービスシステムにおける根本原因分析の新しいフレームワークであるGALAを紹介する。
GALAはオープンソースのベンチマークで評価され、最先端のメソッドよりも大幅に改善されている。
GALAは自動故障診断と実用的なインシデント解決のギャップを埋めることを示す。
論文 参考訳(メタデータ) (2025-08-17T19:12:05Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。