論文の概要: Unsupervised Memory-Enhanced Video Transformers: Obstacle Detection for Autonomous Agricultural Rover
- arxiv url: http://arxiv.org/abs/2606.26151v1
- Date: Tue, 23 Jun 2026 08:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 18:46:32.012695
- Title: Unsupervised Memory-Enhanced Video Transformers: Obstacle Detection for Autonomous Agricultural Rover
- Title(参考訳): 教師なしメモリ強化ビデオトランス:自律型農業ローバーの障害物検出
- Authors: Théo Biardeau, Anne-Sophie Capelle-Laizé, Salwan Alwan, David Helbert,
- Abstract要約: ビデオメモリトランスフォーマによる異常検出(VMTAD)は、動的農業シーンにおけるリアルタイム障害物検出のための教師なしの手法である。
挑戦的なデータセットでは、VMTADは最先端のパフォーマンスを達成し、受信器動作曲線の下で0.973検出と0.997セグメンテーション領域に達した。
- 参考スコア(独自算出の注目度): 0.34998703934432673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autonomous rovers have become indispensable to precision farming, achieving consistent operational safety remains a critical challenge. Conventional safety sensors, such as LiDAR, fail to detect obstacles positioned below the plant canopy, posing a significant risk. While camera-based supervised learning methods can detect common objects, they perform poorly when faced with obstacles that were not present in their training data. Actual unsupervised anomaly detection offers a solution by learning the normal visual patterns of an environment, but often fails for the dynamic scenes captured by a moving rover.\\ This paper introduces Video Memory Transformers for Anomaly Detection (VMTAD), a fully unsupervised method designed for real-time obstacle detection in dynamic agricultural scenes. VMTAD utilizes a transformer-driven architecture augmented with a dedicated memory module. This memory module leverages temporal context by processing encoded representations of preceding frames. This approach enables the system to effectively address the dynamic context caused by the robot's movement. The model is trained using only images that represent normal operation, requiring no data labels.\\ VMTAD was rigorously evaluated on the 'Grillion' agricultural rover. On a challenging rapeseed dataset, VMTAD achieved state-of-the-art performance, reaching a 0.973 detection and 0.997 segmentation Area Under the Receiver Operating Characteristic curve. A lightweight variant provides an optimal balance of high accuracy and real-time inference (14 ms), which is critical for safety, as confirmed by our analysis of the rover's total stopping distance.
- Abstract(参考訳): 自律型ローバーは精密農業には欠かせないものとなっているが、一貫した運転安全を達成することは重要な課題である。
従来の安全センサー、例えばLiDARは、プラントの天蓋の下に位置する障害物を検知できず、重大なリスクを生じさせる。
カメラを用いた教師付き学習手法は,一般的な物体を検出できるが,訓練データに存在しない障害物に直面した場合には,性能が低下する。
実際の教師なし異常検出は、環境の通常の視覚パターンを学習することで解決策を提供するが、移動ローバーが捉えたダイナミックなシーンには失敗することが多い。
本稿では,動的農業シーンにおけるリアルタイム障害物検出のための教師なし手法であるビデオメモリトランスフォーマー(VMTAD)を紹介する。
VMTADは、専用のメモリモジュールを付加したトランスフォーマー駆動アーキテクチャを利用する。
このメモリモジュールは、前のフレームの符号化された表現を処理することで、時間的コンテキストを活用する。
このアプローチにより,ロボットの動きによって引き起こされる動的状況に効果的に対処することができる。
モデルは通常の操作を表す画像のみを使用してトレーニングされ、データラベルは不要である。
\\ VMTADは「グリリオン」農業用ローバーで厳格に評価された。
挑戦的なデータセットでは、VMTADは最先端のパフォーマンスを達成し、受信器動作曲線の下で0.973検出と0.997セグメンテーション領域に達した。
軽量な変種は、ローバーの全停止距離の分析によって確認されたように、安全性に重要な高精度かつリアルタイムな推論(14ms)の最適なバランスを提供する。
関連論文リスト
- Active Adversarial Perturbation-driven Associative Memory Retrieval for RGB-Event Visual Object Tracking [58.338848435042536]
RGB-Eventトラッキングは、イベントセンサからRGB外観テクスチャと高密度時間運動キューを融合することにより、ローカライズを改善する。
現実世界のシーンは、従来のマルチモーダル融合を妨げる多様な構造的な信号劣化に悩まされる。
本稿では,RGBイベント追跡に適した階層的摂動・検索フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-24T23:34:06Z) - Visual Geometry Transformer in the Wild: Distractor-Free 3D Reconstruction [77.75911117889915]
現在のエンドツーエンドのマルチビュー3D再構成手法は、目覚ましい結果を得るが、制限的な静的仮定に依存している。
この理想的な入力への依存は、最も高度なメソッドでさえ、現実世界の設定で失敗する原因となる。
非一貫性の視点から頑健な再構築を行うためのエンドツーエンドフレームワークであるWildにおけるビジュアルジオメトリトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2026-06-22T02:52:22Z) - Synthetic-to-Real Pipeline for Safe Landing Zone Detection [0.0]
この研究は、自律着陸タスクのシム・トゥ・リアルギャップを橋渡しするために設計された包括的知覚とデータ生成パイプラインを提案する。
本稿では,ドメインランダム化による自動意味アノテーションによる都市環境生成のための手続き型合成データエンジンを提案する。
決定論的着陸モジュールは、Euclidean Distance Transform (EDT) と動的推論ロジックを使用して、最も大きな入力された安全な着陸ゾーンを特定する。
論文 参考訳(メタデータ) (2026-06-09T01:32:07Z) - Robust Dynamic Object Detection in Cluttered Indoor Scenes via Learned Spatiotemporal Cues [15.517814236046055]
鳥眼視(BEV)により時間的占有感に基づく運動分節を融合させるLiDARのみのフレームワークを提案する。
モーションキャプチャー地上真実を用いた実験により,本手法は28.67%のリコール率,18.50%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-16T18:59:51Z) - Axle Sensor Fusion for Online Continual Wheel Fault Detection in Wayside Railway Monitoring [1.1199585259018456]
本研究は,鉄道断層診断のためのセマンティック・アウェア,ラベル効率のよい連続学習フレームワークを提案する。
このモデルは、フラットやポリゴン化による小さな欠陥を検出しながら、進化する運用条件に適応する。
論文 参考訳(メタデータ) (2026-02-18T00:14:18Z) - SPOT: Spatio-Temporal Obstacle-free Trajectory Planning for UAVs in an Unknown Dynamic Environment [1.9181913148426697]
我々は、視覚に基づくセーフフライト・コリドール(SFC)世代と統合した4次元プランナーを開発した。
シミュレーションおよび実世界のハードウェア実験において,本手法を広範囲に検証し,最先端の手法と比較した。
論文 参考訳(メタデータ) (2026-02-01T12:24:12Z) - Surveillance Video-Based Traffic Accident Detection Using Transformer Architecture [2.621034368312571]
交通事故は、人口増加、都市化、自動車化による死亡率の増加により、世界的死亡率の主要な原因となっている。
事故検出のための伝統的なコンピュータ手法は、限られた理解と貧弱なクロスドメインの一般化を伴う。
本研究では,事前抽出した空間映像特徴を用いた変圧器アーキテクチャに基づく事故検出モデルを提案する。
論文 参考訳(メタデータ) (2025-12-12T07:57:36Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。