論文の概要: Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.08513v1
- Date: Sun, 07 Jun 2026 08:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.179409
- Title: Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning
- Title(参考訳): 強化学習を用いた自律型水中車両のエンド・トゥ・エンド運動計画と実行に向けて
- Authors: Elisei Shafer, Oren Gal,
- Abstract要約: 本稿では,センサデータをスラスタコマンドに直接マッピングする,エンドツーエンドのDeep Reinforcement Learning(DRL)アプローチの実現可能性について検討する。
2Hzで動作するHigh-Level(HL)ポリシーは、生の8.4倍の84$ピクセルの単眼カメラフレーム、100倍の100$ピクセルの前方画像ソナー、空間的なサブゴールを生成するプロプリオセプティブデータを処理する。
10Hzで動作する低レベル(LL)ポリシーは、これらのサブゴールをスラスタコマンドに変換する。
- 参考スコア(独自算出の注目度): 2.1942030377331245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Underwater Vehicles (AUVs) traditionally rely on complex, heavily engineered pipelines for perception, path planning, and motion control. This paper explores the feasibility of an end-to-end Deep Reinforcement Learning (DRL) approach that maps raw sensor data directly to thruster commands, reducing manual engineering. We propose a hierarchical reinforcement learning (HRL) architecture splitting the problem into two Markov Decision Processes. A High-Level (HL) policy operating at 2Hz processes raw $84 \times 84$ pixel monocular camera frames, stacked $100 \times 100$ pixel forward-looking imaging sonar, and proprioceptive data to generate spatial subgoals. Simultaneously, a Low-Level (LL) policy operating at 10Hz converts these subgoals into thruster commands. The HL policy is trained using Reinforcement Learning from Prior Demonstrations (RLPD) within a modified Sample-Efficient Robotic Reinforcement Learning (SERL) framework, while the LL policy utilizes Soft Actor-Critic (SAC) combined with Hindsight Experience Replay (HER). Evaluated in the high-fidelity HoloOcean simulator, our method demonstrates successful obstacle avoidance, achieving trajectory lengths closely approximating (within 4% to 6% of) an $\text{RRT}^*$ planning baseline. Furthermore, the learned policy exhibits strong robustness to simulated sensor noise and decreased visibility. While the system navigates familiar geometries effectively, experiments reveal generalization limitations when encountering unvisited areas with novel obstacle shapes. Ultimately, this work demonstrates the promise of sample-efficient, end-to-end DRL for underwater navigation using minimal computational hardware.
- Abstract(参考訳): 自律型水中車両(AUV)は伝統的に、知覚、経路計画、移動制御のための複雑で複雑なパイプラインに依存している。
本稿では,生センサデータをスラスタコマンドに直接マッピングし,手動によるエンジニアリングを削減できる,エンドツーエンドのDeep Reinforcement Learning (DRL)アプローチの実現可能性について検討する。
本稿では,問題を2つのマルコフ決定プロセスに分割する階層的強化学習(HRL)アーキテクチャを提案する。
2Hzで動作するHigh-Level(HL)ポリシーは、84ポンドの単眼カメラフレームの84ドル、100ドル分の100ドル分の前方画像ソナーの積み重ね、空間的なサブゴールを生成するためのプロプリセプティブデータを処理する。
同時に、10Hzで動作する低レベル(LL)ポリシーは、これらのサブゴールをスラスタコマンドに変換する。
HLポリシは、修正されたサンプル効率のロボット強化学習(SERL)フレームワークで、RLPD(Reinforcement Learning from Prior Demonstrations)を使用してトレーニングされ、LLポリシは、HER(Hindsight Experience Replay)と組み合わせたSoft Actor-Critic(SAC)を使用している。
高忠実度ホロオセアンシミュレータで評価し, 軌道長の密接な近似(4%から6%)を行い, 計画ベースラインを$\text{RRT}^*$とした。
さらに、学習方針は、センサノイズのシミュレートと可視性低下に対して強い堅牢性を示す。
このシステムは、よく知られた地形を効果的にナビゲートする一方で、新しい障害物形状の未観測領域に遭遇する際の一般化の限界を明らかにする。
最終的に、この研究は、最小限の計算ハードウェアを使用した水中航法におけるサンプリング効率、エンドツーエンドDRLの可能性を実証している。
関連論文リスト
- ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring [52.195295396336526]
ZTRS(Zero-Imitation End-to-End Autonomous Driving with Trajectory Scoring)は、情報を失うことなくセンサー入力と堅牢な計画のためのRLトレーニングという、両方の世界の強みを組み合わせたフレームワークである。
ZTRSは、Navtest、Navhard、HUGSIMの3つのベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-10-28T06:26:36Z) - Self-Supervised Learning to Fly using Efficient Semantic Segmentation and Metric Depth Estimation for Low-Cost Autonomous UAVs [5.602128292727329]
本稿では,制御室内環境下での小型UAVのための視覚のみの自律飛行システムを提案する。
このシステムは、セマンティックセグメンテーションと単眼深度推定を組み合わせることで、障害物回避、シーン探索、自律型安全な着陸操作を可能にする。
鍵となる革新は適応スケールファクターアルゴリズムであり、非メトリックな単眼深度予測を正確な距離測定に変換する。
論文 参考訳(メタデータ) (2025-10-18T19:35:17Z) - Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles [1.7923169244369488]
マルチエージェント強化学習は、サンプル非効率で悪名高い。
GazeboのLRAUVのような高忠実度シミュレータは、リアルタイムのシングルロボットシミュレーションを100倍高速にする。
本稿では,高忠実度シミュレーションをGPU加速環境へ伝達する反復蒸留法を提案する。
論文 参考訳(メタデータ) (2025-05-13T04:42:30Z) - RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。
提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文 参考訳(メタデータ) (2025-02-04T06:42:08Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World [46.02807945490169]
シミュレーションにおける最短パスプランナーの模倣は,RGBセンサ(深度マップやGPS座標なし)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うエージェントを生成することを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。