Fugu-MT 論文翻訳(概要): Guided Diffusion with Distilled Vision-Language Reliability for Aerial Navigation

論文の概要: Guided Diffusion with Distilled Vision-Language Reliability for Aerial Navigation

arxiv url: http://arxiv.org/abs/2606.13883v1
Date: Thu, 11 Jun 2026 20:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:42.637107
Title: Guided Diffusion with Distilled Vision-Language Reliability for Aerial Navigation
Title（参考訳）: 航空航法における希釈型視覚言語信頼性を用いた誘導拡散
Authors: Ivan Valuev, Iana Zhura, Valerii Serpiva, Didar Seyidov, Dzmitry Tsetserukou,
Abstract要約: 3次元UAVナビゲーションのための信頼性を考慮した拡散プランナを提案する。これは、シーンレベルの信頼性ヒートマップとともに、観測上の軌道生成を条件付ける。再訓練をせずに、目に見えない環境に一般化するため、2段階のESDFコストでデノナイズ処理を行う。
参考スコア（独自算出の注目度）: 2.186077977059593
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Autonomous UAV navigation is conventionally solved by pipelines that separate perception, mapping, and planning into distinct stages, which propagates errors, accumulates latency, and requires environment-specific retuning. End-to-end generative models remove these interfaces by mapping raw observations directly to trajectories, but inherit a subtle failure mode: trained on clean data, they cannot recognise when an observation is unreliable, and treat degraded regions such as glass, mirrors, and overexposed surfaces as valid evidence for planning. We present a reliability-aware diffusion planner for 3D UAV navigation. It conditions trajectory generation on the observation together with a scene-level reliability heatmap that marks where perception cannot be trusted, produced by a lightweight network that distils the open-vocabulary reasoning of a vision-language model within the real-time planning budget. To generalise to unseen environments without retraining, we steer the denoising process with a differentiable two-stage ESDF cost that treats physical obstacles from depth and virtual obstacles from highly unreliable regions on equal footing. In simulation and on a real quadrotor, our planner produces markedly safer trajectories than a state-of-the-art diffusion baseline, reducing the obstacle-violation rate from 40.3% to 9.6% and raising the mean reliability of traversed regions from 0.588 to 0.925. Ablating the reliability term alone drops mean reliability from 0.898 to 0.783, confirming it as the decisive component, while distillation runs the framework up to 2 times faster than the full vision-language model.
Abstract（参考訳）: 自律型UAVナビゲーションは、従来、認識、マッピング、計画を別々のステージに分割するパイプラインによって解決されていた。エンド・ツー・エンドの生成モデルは、生の観察を直接軌跡にマッピングすることでこれらのインターフェースを除去するが、微妙な障害モードを継承する: クリーンなデータに基づいて訓練され、観察が信頼できないときに認識できず、ガラス、鏡、過剰に露出した表面などの劣化した領域を計画の有効な証拠として扱う。 3次元UAVナビゲーションのための信頼性を考慮した拡散プランナを提案する。リアルタイム計画予算内での視覚言語モデルのオープン語彙推論を排除した軽量ネットワークによって生成された、知覚が信頼できない場所を示すシーンレベルの信頼性ヒートマップとともに、観察上の軌跡生成を条件とする。再現性のない環境に一般化するため, 同一の足場において, 物理的障害物を深度から, 仮想障害物を高度に信頼できない領域から処理する2段階のESDFコストで, 難聴化プロセスを操る。シミュレーションおよび実4乗法において,我々のプランナーは,最先端拡散ベースラインよりもはるかに安全な軌道を生成し,障害物違反率を40.3%から9.6%に低減し,トラバース領域の平均信頼性を0.588から0.925に向上させた。信頼性という用語だけでは、信頼性を0.898から0.783に低下させ、それを決定的なコンポーネントとして確認する一方、蒸留は完全な視覚言語モデルよりも最大2倍高速にフレームワークを実行する。

関連論文リスト

Rethinking Embodied Navigation via Relational Inductive Bias [53.72276435022479]
本稿では,DB-Navを提案する。標的中心の関係を活性化バイアスと抑制バイアスに分類する。成功率(SR)と成功率(SPL)はパス長さ(SPL)が重み付けされているため、既存の方法よりも著しく優れています。
論文参考訳（メタデータ） (2026-06-09T02:57:34Z)
Uncertainty-Aware 3D Position Refinement for Multi-UAV Systems [0.3867363075280543]
本稿では, 無人航空機の局部推定値を, 近隣の共有状態サマリーやUAV間距離, 近接制約と組み合わせることで, 頑健性を向上する分散軽量な3次元位置補正層を提案する。提案手法は, 冷間開始時の平均局所化誤差を著しく低減し, 局所推定器が安定化した後も競争力を保ち, 信頼のない核融合と比較して悪質ノードの割合が増加するにつれて, 低い誤差を保ち続けることを示す。
論文参考訳（メタデータ） (2026-05-13T13:22:14Z)
Evidence-Based Landing Site Selection and Vison-Based Landing for UAVs in Unstructured Environments [0.9236074230806578]
本稿では,無人無人無人着陸のためのエビデンスに基づく確率的枠組みを提案する。視覚サーボによる実行から不確実性の下での意思決定を明示的に分離する。 NvidiaのIsaac Simによる実世界の実験と高忠実度シミュレーションの両方を通じて検証されている。
論文参考訳（メタデータ） (2026-05-02T13:05:20Z)
Task-Conditioned Uncertainty Costmaps for Legged Locomotion [8.377206870832945]
脚のあるロボットは、地形との多接触相互作用を通じて動的実現性を維持する。本研究では,地形観測と指示運動を条件に予測された足場におけるモデリングの不確実性が,分布外操作系と分布外動作系とを区別することを示す。我々は、この学習された不確実性を利用して、OOD領域を検出し、不確実性を認識した経路計画のための統一されたコストマップ生成フレームワークに組み込む。
論文参考訳（メタデータ） (2026-04-30T21:54:43Z)
Instance-level Visual Active Tracking with Occlusion-Aware Planning [61.982298426203165]
Visual Active Tracking (VAT)は、カメラを3D空間でターゲットに追従することを目的としている。 VATは、視覚的に類似したイントラクタからの混乱と、閉塞下での深刻な障害という、現実世界のデプロイメントにおいて2つの重要なボトルネックに直面している。 3つの相補的なモジュールを持つ統一パイプラインであるOA-VATを提案する。
論文参考訳（メタデータ） (2026-04-23T09:11:50Z)
LLM-Generated Fault Scenarios for Evaluating Perception-Driven Lane Following in Autonomous Edge Systems [0.5046831208137847]
本稿では,エッジデバイス上での自律型視覚システムのためのオフラインオフライン障害注入フレームワークについて紹介する。このアーキテクチャは検証プロセスを,計算集約的なオフラインフェーズと軽量オンラインフェーズという,2つの異なるフェーズに分割する。我々は460の障害シナリオにわたるResNet18レーンフォローモデルでこのフレームワークを広範囲に検証した。
論文参考訳（メタデータ） (2026-04-01T09:27:46Z)
SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection [6.806105013817923]
SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。 9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
論文参考訳（メタデータ） (2025-10-20T19:14:29Z)
Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文参考訳（メタデータ） (2024-04-15T14:29:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。