論文の概要: Semantically-Aware Diver Activity Recognition Framework for Effective Underwater Multi-Human-Robot Collaboration
- arxiv url: http://arxiv.org/abs/2606.12374v1
- Date: Wed, 10 Jun 2026 17:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.602328
- Title: Semantically-Aware Diver Activity Recognition Framework for Effective Underwater Multi-Human-Robot Collaboration
- Title(参考訳): 効果的水中マルチヒューマンロボット協調のための意味論的多様性度認識フレームワーク
- Authors: Sadman Sakib Enan, Junaed Sattar,
- Abstract要約: DAR-Netは複雑な水中シーンを分析し、ダイバー活動を分類するフレームワークである。
我々の貢献は、トランスフォーマーに基づく時間的推論と画素レベルのシーン監視を結合した意味指導型学習定式化にある。
DAR-Netは、6つの異なるダイバー活動を認識する上で有望な精度を達成する。
- 参考スコア(独自算出の注目度): 9.010955965403669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective multi-human-robot collaboration is essential for expanding human-led operations in the challenging and high-risk underwater environment. For autonomous underwater vehicles (AUVs) to become true teammates, they must be able to comprehend their surroundings and recognize a diver's activities to offer assistance and ensure safety. Towards this goal, we introduce DAR-Net, a novel transformer-based framework that analyzes complex underwater scenes to classify diver activities. Our contribution lies in a semantically guided learning formulation that couples transformer-based temporal reasoning with pixel-level scene supervision. This multi-loss training strategy explicitly aligns global activity recognition with local human-robot interaction semantics, which is particularly critical in low-visibility underwater conditions. To address the significant challenge of data scarcity in this domain, we present the first-ever Underwater Diver Activity (UDA) dataset, a foundational resource containing over 2,600 annotated images with pixel-level masks. Through rigorous experimental evaluations in a controlled environment, we demonstrate that DAR-Net achieves promising accuracy in recognizing six distinct diver activities, outperforming state-of-the-art models. While this dataset provides a crucial baseline, our work serves as a pioneering step, laying the groundwork for future research and facilitating the development of more intelligent, collaborative underwater robotic systems.
- Abstract(参考訳): 課題の多い高リスク水中環境下での人間主導の作業の拡大には,効果的なマルチヒューマンロボットコラボレーションが不可欠である。
自律型水中車両(AUV)が真のチームメイトになるためには、周囲を理解し、ダイバーの活動を認識して支援と安全を確保する必要がある。
そこで本稿では,複雑な水中シーンを解析してダイバー活動を分類するトランスフォーマーベースのフレームワークであるDAR-Netを紹介する。
我々の貢献は、トランスフォーマーに基づく時間的推論と画素レベルのシーン監視を結合した意味指導型学習定式化にある。
このマルチロストレーニング戦略は、特に低視認性水中条件において重要な、グローバルな活動認識と、局所的な人間とロボットの相互作用セマンティクスとを明確に整合させる。
この領域におけるデータ不足の重大な課題に対処するために,2,600以上の注釈付き画像と画素レベルのマスクを含む基礎資源である,最初の水中潜水活動(UDA)データセットを提案する。
制御された環境下での厳密な実験的評価を通じて、DAR-Netは、6つの異なるダイバー活動を認識する上で有望な精度を達成し、最先端のモデルより優れていることを示す。
このデータセットは重要なベースラインを提供するが、我々の研究は先駆的なステップであり、将来の研究の基盤を築き、よりインテリジェントで協調的な水中ロボットシステムの開発を促進する。
関連論文リスト
- IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding [60.76337064425815]
本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。
NautDataは、8つの水中シーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットである。
本稿では,透明な水中情報を明示的に復元するVFEモジュールを提案する。
論文 参考訳(メタデータ) (2025-10-31T14:00:35Z) - Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。
従来の研究は、濁度や後方散乱に適応する手法を導入してきた。
本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-23T06:48:38Z) - Deep Learning-Enhanced Visual Monitoring in Hazardous Underwater Environments with a Swarm of Micro-Robots [8.38975683806005]
水中貯蔵施設のような極端な環境の監視と探索は、コストが高く、労働集約的で危険である。
本稿では,複数時間深層学習ネットワークを統合し,協調予測と画像再構成を行う新しい手法を提案する。
その結果,座標予測精度と画像の集合性が非常に高く,本手法の現実的適用性を示している。
論文 参考訳(メタデータ) (2025-03-04T16:19:06Z) - Sonar-based Deep Learning in Underwater Robotics: Overview, Robustness and Challenges [0.46873264197900916]
水中でのソナーの使用は、限られた訓練データと固有のノイズが特徴であり、頑丈さをモデル化する上での課題となっている。
本稿では,分類,物体検出,セグメンテーション,SLAMなどのソナーベース認知タスクモデルについて検討する。
ソナーベースの最先端データセット、シミュレータ、ニューラルネットワーク検証、アウト・オブ・ディストリビューション、敵攻撃などの堅牢性メソッドを体系化する。
論文 参考訳(メタデータ) (2024-12-16T15:03:08Z) - CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。
われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。
本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:44:25Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - A Diver Attention Estimation Framework for Effective Underwater Human-Robot Interaction [14.267807345588581]
近年の視覚に基づく水中HRI法の進歩は、トップサイドオペレーターの助けを必要とせずに、人間のパートナーと対話する能力を持っている。
これらの方法では、AUVはダイバーが相互作用する準備ができていると仮定するが、実際にはダイバーは邪魔される可能性がある。
本稿では、ダイバーの注意度を自律的に決定するための、AUVに対するダイバーアテンション推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T22:08:41Z) - DARE: AI-based Diver Action Recognition System using Multi-Channel CNNs
for AUV Supervision [3.5584173777587935]
本稿では,認知自律走行バディデータセットに基づいて学習したダイバー動作認識システムDAREを提案する。
DAREは高速で、1つのステレオペアを分類するのに数ミリ秒しか必要としないため、リアルタイム水中実装に適している。
論文 参考訳(メタデータ) (2020-11-16T04:05:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。