論文の概要: Real-Time Multimodal Activity-Aware Error Detection in Robot-Assisted Surgery
- arxiv url: http://arxiv.org/abs/2606.23593v1
- Date: Mon, 22 Jun 2026 17:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:58:00.386869
- Title: Real-Time Multimodal Activity-Aware Error Detection in Robot-Assisted Surgery
- Title(参考訳): ロボット支援手術におけるリアルタイムマルチモーダル活動認識誤差検出
- Authors: Seyed Hamid Reza Roodabeh, Zongyu Li, Homa Alemzadeh,
- Abstract要約: 本稿では,ビデオ,キネマティクス,テキストプロンプトを含むマルチモーダル入力を用いた実行エラー検出のための統一フレームワークを提案する。
JIGSAWSとSAR-RARP50データセットの最先端ベースラインに対して、最大5%と16.6%のF1を達成しました。
- 参考スコア(独自算出の注目度): 6.047276283488404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot-assisted minimally invasive surgery improves surgical precision but introduces complexity, making technical error detection essential for ensuring patient safety. Current executional error detection methods using video data often overlook fine-grained contextual descriptions of activities and error types within the hierarchical structure of surgical procedures. They also under-utilize complementary multimodal information. We propose a unified framework for executional error detection that leverages multimodal input, including video, kinematics, and descriptive textual prompts. Through activity prompting, we integrate descriptive language in gesture-level activities, instrument-object interactions, and error definitions. We also introduce activity-aware visual embeddings derived from vision encoders pretrained on surgical activity labels to compare the effectiveness of contrastive language-image embeddings with traditional image-based embeddings for error detection. By seamlessly integrating kinematic data with video and textual modalities, our framework significantly improves error detection performance. Achieving up to 5\% and 16.6\% F1 score improvements over state-of-the-art baselines on the JIGSAWS and SAR-RARP50 datasets, respectively, we demonstrate the value of combining curated textual prompts with multimodal data for accurate error detection.
- Abstract(参考訳): ロボット支援による最小侵襲手術は、外科的精度を向上させるが、複雑さをもたらすため、患者の安全を確保するためには技術的エラー検出が不可欠である。
ビデオデータを用いた現在の実行エラー検出法は、手術手順の階層構造内のアクティビティやエラータイプについて、きめ細かいコンテキスト記述を見落としていることが多い。
また、補完的なマルチモーダル情報も活用している。
本稿では,ビデオ,キネマティクス,記述的テキストプロンプトを含むマルチモーダル入力を活用する,実行エラー検出のための統一フレームワークを提案する。
アクティベーションプロンプトを通じて,ジェスチャレベルアクティビティ,楽器オブジェクトインタラクション,エラー定義に記述言語を統合する。
また,術中活動ラベルに事前訓練された視覚エンコーダから得られる活動認識型視覚埋め込みを導入し,従来の画像ベース埋め込みと対照的な言語画像埋め込みの有効性を比較した。
ビデオとテキストのモダリティとキネマティックデータをシームレスに統合することにより、我々のフレームワークはエラー検出性能を大幅に改善する。
JIGSAWSとSAR-RARP50データセットの最先端ベースラインに対して最大5\%と16.6\%のF1スコアを達成し、キュレートされたテキストプロンプトとマルチモーダルデータを組み合わせて正確なエラー検出を行う価値を実証した。
関連論文リスト
- GenShield: Unified Detection and Artifact Correction for AI-Generated Images [65.11434977803509]
GenShieldは、診断から修復までのクローズドループでAIGI検出とアーティファクト修正を実行するフレームワークである。
大規模なアーティファクト-restored'ペアを備えた高品質データセットは、統一された評価パイプラインと共に構築される。
論文 参考訳(メタデータ) (2026-05-15T16:06:20Z) - TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models [13.912437629529693]
時間的動きの手がかりを組み込むための楽器軌道を符号化するフレームワークであるTrajPredを提案する。
また,楽器間相互作用認識タスクへのスムーズな適応を実現するために,プロンプトチューニングと動詞言い換え手法を取り入れた。
論文 参考訳(メタデータ) (2026-03-07T02:44:57Z) - Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection [33.77002721234086]
MLLM(Multimodal Large Language Models)を利用した新しいVADフレームワークを提案する。
本手法は、時間とともにオブジェクトのアクティビティやインタラクションを抽出し、解釈することに焦点を当てる。
我々のアプローチは本質的に説明可能性を提供し、多くの従来のVAD手法と組み合わせて解釈可能性をさらに高めることができる。
論文 参考訳(メタデータ) (2025-10-16T17:13:33Z) - Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement [45.691433426389985]
本稿では,精度と信頼性を高めるために,視覚と運動データを統合するグラフベースの手法を提案する。
ヴィジュアルデータはダイナミックな手術シーンをキャプチャし、キネマティックデータは正確な運動情報を提供する。
本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
論文 参考訳(メタデータ) (2025-05-03T09:43:30Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。