論文の概要: Spatio-Temporal Fusion Model for Standard View Classification of Echocardiographic Videos
- arxiv url: http://arxiv.org/abs/2606.17437v1
- Date: Tue, 16 Jun 2026 02:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.225209
- Title: Spatio-Temporal Fusion Model for Standard View Classification of Echocardiographic Videos
- Title(参考訳): 心エコー画像の標準画像分類のための時空間融合モデル
- Authors: Bo Gou, Jicheng Zhang, Jianlong Xiong, Tao He, Bentian Liu, Hai Wu, Yijiao Wang, Yu Zhang, Yujia Yang, Yun Dai, Jian Liu, Jie Wang,
- Abstract要約: 我々は,5,138本のビデオ,910,579フレーム,9つの標準ビューからなる,心電図ビデオ・オブ・ナインビュー(EV9V)データセットをリリースする。
コンボリューショナルニューラルネットワーク(CNN)、リカレントニューラルネットワーク(NN)、トランスフォーマーなど、代表的なビデオ分類アーキテクチャをベンチマークする。
本研究では,空間解剖学的構造と時空間心力学を共同で捉える時空間核融合モデル(STFM)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.11102645825999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated classification of standard echocardiographic views is crucial for efficient clinical workflow but faces three main challenges. First, publicly available datasets are scarce and limited in scale and view coverage. Second, the performance of some modern video-level architectures for echocardiographic view classification remains underexplored. Third, some view categories exhibit highly similar spatial appearances, making single-frame features insufficient for discrimination, while heterogeneous frame quality complicates robust temporal information fusion. To address these challenges, we release the Echocardiographic Videos of Nine Views (EV9V) dataset, comprising 5,138 videos, 910,579 frames, and 9 standard views, which is, to the best of our knowledge, the largest publicly available echocardiography video dataset. Using EV9V, we systematically benchmark representative video classification architectures, including Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Transformers. Furthermore, we propose a Spatio-Temporal Fusion Model (STFM), an efficient dual-stream CNN-LSTM (Long Short-Term Memory) framework that jointly captures spatial anatomical structures and temporal cardiac dynamics. The proposed framework leverages uncertainty-aware learning to preferentially sample representative video segments during training and evidence-based fusion during inference, improving robustness to variations in frame quality across echocardiographic videos. Extensive experiments demonstrate that our method achieves competitive performance across diverse video classification models, validating the effectiveness of uncertainty-aware spatio-temporal learning for echocardiographic view classification. The code is available at https://github.com/bgx666/stfm.
- Abstract(参考訳): 心エコー図像の自動分類は, 効率的な臨床ワークフローにおいて重要であるが, 主な課題は3つある。
ひとつは、公開可能なデータセットが不足し、スケールとビューカバレッジが制限されていることだ。
第2に、心エコー図像分類のための近代的なビデオレベルのアーキテクチャの性能については、未検討のままである。
第三に、いくつかのビューカテゴリは、非常に類似した空間的外観を示し、単一フレームの特徴が識別に不十分である一方、異種フレームの品質は、堅牢な時間情報融合を複雑にする。
これらの課題に対処するため、私たちは5,138の動画、910,579のフレーム、9つの標準ビューからなるEchocardiographic Videos of Nine Views (EV9V)データセットをリリースしました。
EV9Vを用いて、コンボリューショナルニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーなどの代表的なビデオ分類アーキテクチャを体系的にベンチマークする。
さらに,空間解剖学的構造と時空間心力学を併用した2重ストリームCNN-LSTM(Long Short-Term Memory)フレームワークである時空間核融合モデル(STFM)を提案する。
提案フレームワークは、不確実性認識学習を利用して、トレーニング中の代表映像セグメントと推論中のエビデンスベースの融合を優先的にサンプリングし、心エコービデオ間でのフレーム品質の変動に対する堅牢性を向上させる。
心エコー図分類における不確実性を考慮した時空間学習の有効性を検証し,多種多様なビデオ分類モデル間での競合性能を実証した。
コードはhttps://github.com/bgx666/stfm.comから入手できる。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation [21.738308923180767]
心エコービデオ表現学習のための自己教師型デュアルブランチフレームワークであるdisCOVRについて述べる。
DISCOVRは、時間的ダイナミクスをモデル化するクラスタリングベースのビデオエンコーダと、きめ細かい空間意味論を抽出するオンライン画像エンコーダを組み合わせる。
論文 参考訳(メタデータ) (2025-06-13T13:36:33Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。