論文の概要: HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin
- arxiv url: http://arxiv.org/abs/2606.20189v1
- Date: Thu, 18 Jun 2026 13:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.863877
- Title: HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin
- Title(参考訳): HilDA:自己増強LiDARプレトレイン改善のための拡散を伴う階層的蒸留
- Authors: Maciej Wozniak, Jesper Ericsson, Hariprasath Govindarajan, Truls Nyberg, Thomas Gustafsson, Patric Jensfelt, Olov Andersson,
- Abstract要約: HilDAは、LiDARのための自己教師付き事前トレーニングフレームワークである。
タスクの実行に必要な意味と幾何学的位置をキャプチャする。
HilDAで事前訓練されたモデルは、クロスモーダル蒸留ベンチマークで最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 6.5995040160990674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging Vision Foundation Models (VFMs) for camera-to-LiDAR knowledge distillation offers a promising solution to the scarcity of annotated data needed to represent the immense geometric and kinematic diversity of real-world autonomous driving (AD). However, current approaches typically treat VFMs as black-box teachers, relying exclusively on frame-wise feature similarity. Consequently, they do not fully exploit the teacher's layer-wise semantic structure and global context, as well as the rich spatiotemporal information inherent in LiDAR sequences. We propose HilDA, a self-supervised pretraining framework for LiDAR backbones that better captures the semantic what and geometric where needed for driving tasks. HilDA combines hierarchical distillation comprising multi-layer distillation for progressive semantic alignment and global context distillation for scene-level semantics, with a temporal occupancy diffusion objective promoting spatiotemporal consistency. Models pre-trained with HilDA achieve state-of-the-art results on cross-modal distillation benchmarks and outperform models trained via prior distillation approaches on 3D object detection, scene flow, and semantic occupancy prediction. Code available at: https://maxiuw.github.io/hilda.
- Abstract(参考訳): カメラからLiDARへの知識蒸留のためのVFM(Velaging Vision Foundation Models)は、現実世界の自律運転(AD)の巨大な幾何学的および運動学的多様性を表現するのに必要な注釈付きデータの不足に対する、有望な解決策を提供する。
しかしながら、現在のアプローチでは、VFMをブラックボックスの教師として扱うのが一般的である。
その結果、教師の階層的意味構造とグローバルコンテキストをフル活用せず、LiDARシーケンスに固有の豊富な時空間情報も活用できない。
我々は、LiDARバックボーンのための自己教師付き事前学習フレームワークであるHilDAを提案する。
HilDAは,多層蒸留,進行的セマンティックアライメント,及びシーンレベルのセマンティクスのグローバルな文脈蒸留を含む階層的蒸留と,時空間的占有拡散の目的を組み合わさった。
HilDAで事前訓練されたモデルは、3Dオブジェクトの検出、シーンフロー、セマンティック占有率予測に関する事前蒸留手法を用いて訓練されたクロスモーダル蒸留ベンチマークおよび性能モデルに対して、最先端の結果を得る。
コードは、https://maxiuw.github.io/hilda.comで入手できる。
関連論文リスト
- ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation [9.230247128710865]
本稿では,各段階における多様体一貫したガイダンスを統合した,学習自由拡散に基づくフレームワークを提案する。
ManifoldGDは、モデルの再トレーニングを必要とせずに、代表性、多様性、画像の忠実性を改善する。
論文 参考訳(メタデータ) (2026-02-26T18:07:10Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Domain Adaptation-Based Crossmodal Knowledge Distillation for 3D Semantic Segmentation [3.6903284283843942]
従来のアプローチは、注釈付きポイントクラウド分析のための広範なデータに依存している。
実世界のイメージデータセットは、十分な可用性と相当なスケールを提供する。
非教師付きドメイン知識蒸留(UDAKD)と特徴と意味に基づく知識蒸留(FSKD)の2つのクロスモーダルな知識蒸留法を提案する。
論文 参考訳(メタデータ) (2025-08-30T06:34:39Z) - Taming Diffusion for Dataset Distillation with High Representativeness [49.3818035378669]
D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。
我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-05-23T22:05:59Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Adaptive Discrete Disparity Volume for Self-supervised Monocular Depth Estimation [0.0]
本稿では,学習可能なモジュールAdaptive Discrete Disparity Volume (ADDV)を提案する。
ADDVは異なるRGB画像の深さ分布を動的に感知し、適応的なビンを生成することができる。
また、自己監督型条件下での正規化を実現するために、新しいトレーニング戦略(統一化と強化)も導入する。
論文 参考訳(メタデータ) (2024-04-04T04:22:25Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。