論文の概要: MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios
- arxiv url: http://arxiv.org/abs/2606.07669v1
- Date: Thu, 04 Jun 2026 06:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.26091
- Title: MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios
- Title(参考訳): MemoVAD:エッジコンピューティングシナリオにおける動的セマンティックメモリによるリソース効率の良いビデオ異常検出
- Authors: Guo Li, Jiandian Zeng, Yang Li, Zihao Peng, Ke Chen, Tian Wang,
- Abstract要約: 実世界の監視におけるビデオ異常検出(VAD)は、有効性を保証するための高レベルのセマンティクスと、エッジデバイスの限られた計算資源との根本的な緊張に直面している。
この課題に対処するために,VLMセマンティクスをストリーミングVADに選択的に組み込んだエッジクラウド協調フレームワークであるMemoVADを提案する。
- 参考スコア(独自算出の注目度): 11.065570477454225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Video Anomaly Detection (VAD) in real-world surveillance faces a fundamental tension between the demand for high-level semantics to ensure effectiveness and the limited computational resources of edge devices. Vision-Language Models (VLMs) provide rich open-vocabulary semantics, but their latency and computational cost preclude on-device deployment. To address the challenge, we propose MemoVAD, an edge-cloud collaborative framework that selectively incorporates VLM semantics into streaming VAD. MemoVAD runs most inference on the edge with a lightweight detector and a causal Temporal Context Encoder (TCE) to model temporal dependencies. Specifically, we introduce an Uncertainty-Aware Gating (UAG) policy grounded in Subjective Logic to model perceived uncertainty and query the cloud-based VLM only for high-uncertainty and semantically novel clips. Besides, a Dynamic Semantic Memory (DSM) is designed to cache VLM-verified prototypes for efficient retrieval, enabling the edge model to progressively incorporate VLM-level semantics via a semantic adapter. Experiments on UCF-Crime and XD-Violence datasets via a real edge device show that MemoVAD substantially reduces communication overhead while surpassing state-of-the-art performance.
- Abstract(参考訳): 実世界の監視におけるビデオ異常検出(VAD)の展開は、エッジデバイスの有効性と限られた計算資源を確保するための高度なセマンティクスの要求と、根本的な緊張関係に直面している。
Vision-Language Models (VLM)は、リッチなオープン語彙セマンティクスを提供するが、そのレイテンシと計算コストはデバイス上でのデプロイメントを妨げる。
この課題に対処するために,VLMセマンティクスをストリーミングVADに選択的に組み込んだエッジクラウド協調フレームワークであるMemoVADを提案する。
MemoVADは、エッジ上でほとんどの推論を実行し、軽量な検出器と時間依存をモデル化するための因果時間コンテキストエンコーダ(TCE)を備える。
具体的には、主観論理に基づく不確実性認識ゲーティング(UAG)ポリシーを導入し、不確実性とセマンティックな新規なクリップに対してのみクラウドベースのVLMをクエリする。
さらに、動的セマンティックメモリ(DSM)は、効率的な検索のためにVLM認証されたプロトタイプをキャッシュするように設計されており、エッジモデルはセマンティックアダプタを介してVLMレベルのセマンティクスを段階的に組み込むことができる。
UCF-CrimeとXD-Violenceのデータセットを実エッジデバイスで実験したところ、MemoVADは最先端のパフォーマンスを越えながら通信オーバーヘッドを大幅に削減することがわかった。
関連論文リスト
- AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution [16.961739475497623]
本稿では,言語対応VFMのデバイス上での効率的な推論のための適応型フレームワークであるAdaVFMを提案する。
AdaVFMは言語対応のVFMにNAS(Neural Architecture Search)を統合し、実行中に軽量な実行を可能にする。
クラウド上にデプロイされるマルチモーダル言語モデル(LLM)は、コンテキスト認識エージェントによるランタイム制御を可能にする。
論文 参考訳(メタデータ) (2026-04-17T02:01:33Z) - Bootstrapping Video Semantic Segmentation Model via Distillation-assisted Test-Time Adaptation [58.40817037271021]
DiTTA(Distillation-assisted Test-Time Adaptation)は、ISSモデルをアノテーション付きビデオなしで時間的に認識されたVSSモデルに変換する新しいフレームワークである。
完全教師付きVSS法と比較して,DITTAの有効性を示す。
論文 参考訳(メタデータ) (2026-04-13T03:47:08Z) - QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection [11.652235163237117]
ビデオ異常検出(VAD)はコンピュータビジョンにおける基本的な課題である。
本稿では,VLM-LLMインタラクションを動的対話として扱う質問中心エージェントフレームワークQVADを提案する。
QVADはメモリフットプリントを最小限にして高い推論速度を実現し、リソース制約のエッジデバイスに高度なVAD機能を提供する。
論文 参考訳(メタデータ) (2026-04-03T13:48:34Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection [15.419663374345845]
本稿では,高精度な局所化と高品質なセマンティック生成を実現するためのAIVDフレームワークを提案する。
エッジトリミングボックスノイズとシナリオ変動に対するクラウドMLLMのロバスト性を高めるため,我々は効率的な微調整戦略を設計する。
異種エッジデバイスと動的ネットワーク条件間の高いスループットと低レイテンシを維持するため,異種リソースを考慮した動的スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:56:07Z) - AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems [6.294240680169978]
災害時の無人航空機(UAV)は、CNNが提供できない複雑なクエリー可能な知性を必要とする。
本稿では,適応型分割計算によるVLMデプロイメントを実現するフレームワークであるAVERYを紹介する。
論文 参考訳(メタデータ) (2025-11-22T18:42:04Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。