論文の概要: Multi-Modal Agents for Power Distribution Defect Detection: An Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2606.12969v1
- Date: Thu, 11 Jun 2026 06:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.62462
- Title: Multi-Modal Agents for Power Distribution Defect Detection: An Evaluation of Foundation Models
- Title(参考訳): 配電欠陥検出のためのマルチモーダルエージェント:基礎モデルの評価
- Authors: Quan Quan,
- Abstract要約: 送電網は信頼性の高い送電に重要である。
従来の検査手法は、意味理解、一般化、クローズドループ自動化の限界に直面している。
本稿では,電力分布欠陥検出に特化したマルチモーダルエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.657204866483681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The power distribution network is critical to reliable electricity delivery, yet traditional inspection methods face limitations in semantic understanding, generalization, and closed-loop automation. To address these challenges, this paper proposes a Multi-Modal Agent framework specifically for power distribution defect detection. Central to this study is the systematic evaluation of multimodal foundation models as unified cognitive engines. We rigorously assess their integrated performance across three critical capabilities: (1) Perception, where the model must accurately identify equipment and generate expert-level descriptions of defects; (2) Reasoning, where the model interprets visual findings to diagnose causes, assess severity, and plan maintenance strategies based on domain knowledge; and (3) Tool Usage, where the model acts as an autonomous operator to execute actions -- such as querying knowledge bases or generating work orders -- to achieve closed-loop maintenance. To support this evaluation, a domain-specific evaluation dataset and a comprehensive benchmark are developed. Experimental results demonstrate the strengths and limitations of current foundation models in these three dimensions, providing empirical evidence for deploying autonomous agents in high-stakes industrial environments.
- Abstract(参考訳): 電力供給ネットワークは信頼性の高い電力供給に不可欠であるが、従来の検査手法は意味理解、一般化、クローズドループ自動化の限界に直面している。
これらの課題に対処するために,電力分布欠陥検出に特化したマルチモーダルエージェントフレームワークを提案する。
本研究の中心は,統合認知エンジンとしてのマルチモーダル基礎モデルの体系的評価である。
我々は,(1) モデルが機器を正確に識別し,欠陥のエキスパートレベルの記述を生成する知覚,(2) モデルが原因を診断し,重大性を評価し,ドメイン知識に基づいてメンテナンス戦略を計画する認識,(3) モデルが自律的なオペレータとして行動し,知識ベースをクエリしたり,作業命令を発生させたりしてクローズドループメンテナンスを実現するためのツール利用,の3つの重要な機能にわたって,それらの統合パフォーマンスを厳格に評価する。
この評価を支援するために、ドメイン固有の評価データセットと包括的なベンチマークを開発した。
実験により,これらの3次元における基礎モデルの強度と限界が示され,高度産業環境における自律エージェントの展開に関する実証的証拠が得られた。
関連論文リスト
- Network Knowledge Prior Guided Learning for Data-Efficient Surface Defect Detection [3.467019758110102]
本稿では,モデル解釈可能性を学習プロセスにシームレスに統合する知識誘導損失関数を提案する。
まず、一次分類ネットワークを訓練し、その説明は、サリエンシマップの形で、事前知識として生成する。
複数の公開欠陥データセットの実験により、我々のアプローチは精度とAPの観点からベースラインモデルの性能を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-05-18T02:59:33Z) - Pitfalls in Evaluating Interpretability Agents [91.49742416116635]
我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
論文 参考訳(メタデータ) (2026-03-20T16:27:17Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments [0.11586753333439907]
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
論文 参考訳(メタデータ) (2026-01-13T23:49:06Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - PB-IAD: Utilizing multimodal foundation models for semantic industrial anomaly detection in dynamic manufacturing environments [0.0]
本稿では, PB-IAD (Prompt-based Industrial Anomaly Detection) を提案する。
データ分散性、アジャイル適応性、ドメインユーザ中心性という、動的運用環境の3つの重要な要件に対処する。
PatchCoreのような異常検出のための最先端のメソッドにベンチマークされる。
論文 参考訳(メタデータ) (2025-08-20T07:53:13Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models [17.914521288548844]
生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
論文 参考訳(メタデータ) (2022-11-19T06:39:43Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。