論文の概要: Holmes: Multimodal Agentic Diagnosis for Mixed-Language Mobile Crashes at Industrial Scale
- arxiv url: http://arxiv.org/abs/2606.21963v1
- Date: Sat, 20 Jun 2026 09:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:30:16.266603
- Title: Holmes: Multimodal Agentic Diagnosis for Mixed-Language Mobile Crashes at Industrial Scale
- Title(参考訳): ホームズ:複合言語移動クラッシュの産業規模におけるマルチモーダルエージェント診断
- Authors: Jia Li, Wenyuan Ma, Ting Peng, Haibin Zheng, Yuetang Deng,
- Abstract要約: 本稿では,実行時信号(スタックトレース,ログ,スレッド状態)を合成して根本原因分析を自動化するマルチエージェントシステムであるHolmesについて述べる。
ホームズは関数レベルの断層定位において87.6%の精度を達成し、平均調査時間を98%以上短縮する。
- 参考スコア(独自算出の注目度): 10.627336348624226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diagnosing mobile crashes in ultra-large-scale industrial applications is a formidable challenge due to the sheer volume of code, the complexity of mixed-language environments, and the inability to reproduce failures locally. Traditional static analysis struggles with scalability, while existing LLM-based agents often rely on reproducible environments unavailable in post-mortem scenarios. We present Holmes, a multi-agent system that automates root cause analysis by synthesizing multimodal runtime signals--stack traces, logs, and thread states--to reconstruct failure contexts without reproduction. Holmes introduces a hierarchical Retrieve-Explore-Reason architecture that leverages low-level artifacts (e.g., registers, assembly) to bridge the semantic gap between open-source business logic and closed-source system frameworks. By dynamically compressing the search space using runtime clues, Holmes precisely navigates 70-million-line codebases to identify non-local defects. Evaluated on real-world crashes from WeChat, Holmes achieves 87.6% accuracy in function-level fault localization and reduces average investigation time by over 98% (to ~77 seconds), demonstrating its effectiveness in transforming labor-intensive debugging into an efficient verification workflow.
- Abstract(参考訳): 超大規模産業アプリケーションにおけるモバイルクラッシュの診断は、コード量の多さ、混合言語環境の複雑さ、ローカルで障害を再現できないことなど、非常に難しい課題である。
従来の静的解析はスケーラビリティに苦慮するが、既存のLCMベースのエージェントは反省会後のシナリオでは利用できない再現可能な環境に依存していることが多い。
マルチモーダルランタイム信号 - スタックトレース,ログ,スレッド状態 - を合成して根本原因分析を自動化するマルチエージェントシステムであるHolmesを提案する。
Holmes氏は階層的なRetrieve-Explore-Reasonアーキテクチャを導入し、低レベルのアーティファクト(レジスタ、アセンブリなど)を活用して、オープンソースビジネスロジックとクローズドソースシステムフレームワーク間のセマンティックギャップを埋める。
ランタイムのヒントを使って検索スペースを動的に圧縮することで、Holmesは7000万行のコードベースを正確にナビゲートし、非ローカルな欠陥を特定する。
WeChatの実際のクラッシュを評価したところ、ホームズは関数レベルの障害ローカライゼーションにおいて87.6%の精度を達成し、平均調査時間を98%以上(約77秒)削減し、労働集約デバッグを効率的な検証ワークフローに変換する効果を実証した。
関連論文リスト
- Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation [5.94150219760557]
LogMILPは、バッグレベルの異常検出とインスタンスレベルの異常ローカライゼーションの両方を可能にする弱教師付きフレームワークである。
本手法は,プロトタイプ誘導構造モデルを用いてクリティカルログエントリをピンポイントする手法である。
3つの公開データセットの実験結果は、LogMILPが競合検出性能を達成することを示す。
論文 参考訳(メタデータ) (2026-05-09T09:21:13Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Multi-agent Auditory Scene Analysis [0.0]
聴覚シーン分析(ASA)は、音源の位置、分離、分類の3つの主要なタスクを実行することで、音環境から情報を取得することを目的としている。
これらのタスクを実行すると、全体のレスポンス時間がリニアに増加し、最後のタスクは最初のタスク(ロケーション)のエラーに非常に敏感になる。
タスクを並列に実行し、各タスク間のフィードバックループでローカルエラーを補うためのマルチエージェントアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-03T16:16:46Z) - Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents [40.37993572657772]
本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。
我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
論文 参考訳(メタデータ) (2025-05-30T19:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。