論文の概要: Tri-Efficient Transfer Learning for Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2606.24175v1
- Date: Tue, 23 Jun 2026 05:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.797634
- Title: Tri-Efficient Transfer Learning for Point Cloud Videos
- Title(参考訳): ポイントクラウドビデオのための3能率移動学習
- Authors: Yiding Sun, Dongxu Zhang, Jihua Zhu, Haozhe Cheng, Zhengqiao Li, Pengcheng Li, Chaowei Fang, Yonghao Dong, Lin Chen,
- Abstract要約: PoinTriEは、データセットを盲目的にスケーリングするのではなく、既存のデータからよりリッチな監視シグナルをマイニングすることを目指している。
事前学習のために、擬似運動軌跡は剛体変換によって合成され、テキストコーパスと原点雲から導出される2次元投影とが組み合わされる。
微調整中、トレーニング済みのバックボーンを凍結し、LoRAユニットで構築された軽量の時空間ネットワークのみを更新します。
- 参考スコア(独自算出の注目度): 32.14641034344552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While point cloud foundation models have significantly advanced point cloud video understanding, existing parameter-efficient fine-tuning (PEFT) methods still suffer from two critical limitations: prohibitive annotation costs for large-scale point cloud datasets and severe memory bottlenecks. In this paper, we aim to mine richer supervision signals from existing data rather than blindly scaling datasets. A further key principle is that the memory footprint of fine-tuning must be drastically reduced compared to full fine-tuning, which remains elusive for current PEFT techniques. Driven by these challenges, we identify three core desiderata: data-, parameter-, and memory efficiency, and present PoinTriE, a unified framework that excels along all three dimensions. For pre-training, pseudo-motion trajectories are synthesized via rigid transformations, paired with text corpora and 2D projections derived from raw point clouds. We then propose a Geometric-Motion Duality Network optimized via multimodal contrastive learning, rigid rotation prediction, and motion distribution divergence to produce dense self-supervision. During fine-tuning, we freeze the pretrained backbone and only update a lightweight Spatio-temporal Side Network built with LoRA units. Equipped with a gradient flow masking strategy, PoinTriE simultaneously reduces memory consumption and parameter overhead. Extensive experiments confirm that PoinTriE establishes new state-of-the-art results on action recognition and semantic segmentation tasks.
- Abstract(参考訳): ポイントクラウド基盤モデルは、かなり先進的なポイントクラウドビデオ理解を持っているが、既存のパラメータ効率の細かいチューニング(PEFT)メソッドには、大規模なポイントクラウドデータセットのアノテーションの禁止と、深刻なメモリボトルネックという2つの重要な制限がある。
本稿では、データセットを盲目的にスケーリングするのではなく、既存のデータからよりリッチな監視信号のマイニングを目的とする。
さらに重要な原則は、現在のPEFT技術では未解決の完全な微調整に比べて、微調整のメモリフットプリントが大幅に削減されなければならないことである。
これらの課題によって、データ、パラメータ、メモリ効率の3つの中核となるDesiderataを特定し、PoinTriEは3つの次元にまたがる統一されたフレームワークです。
事前学習のために、擬似運動軌跡は剛体変換によって合成され、テキストコーパスと原点雲から導出される2次元投影とが組み合わされる。
次に,多モードのコントラスト学習,剛性回転予測,動き分布の偏差によって最適化された幾何運動双対ネットワークを提案する。
微調整中、トレーニング済みのバックボーンを凍結し、LoRAユニットで構築された軽量の時空間ネットワークのみを更新します。
勾配フローマスキング戦略を備えたPoinTriEは、メモリ消費とパラメータオーバーヘッドを同時に削減する。
広範な実験により、PoinTriEはアクション認識とセマンティックセグメンテーションタスクに関する新しい最先端の結果を確立することが確認された。
関連論文リスト
- Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - On Geometry-Enhanced Parameter-Efficient Fine-Tuning for 3D Scene Segmentation [52.96632954620623]
本稿では3Dポイント・クラウド・トランス用に設計された新しい幾何対応PEFTモジュールを提案する。
当社のアプローチでは,大規模3Dポイントクラウドモデルの効率的,スケーラブル,かつ幾何を考慮した微調整のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2025-05-28T15:08:36Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers [1.19658449368018]
本稿では,近接グラフ(STAG)上でのサイドトークン適応(Side Token Adaptation)と呼ばれる新しいPEFTアルゴリズムを提案する。
STAGは、下流タスクにトークンを適用するために、凍結バックボーントランスフォーマーと並行して動作するグラフ畳み込みサイドネットワークを使用している。
また、さまざまな公開3Dポイントクラウドデータセットからなる新しいベンチマークであるPoint Cloud Classification 13 (PCC13)も紹介する。
論文 参考訳(メタデータ) (2025-02-19T22:58:56Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Dual Adaptive Transformations for Weakly Supervised Point Cloud
Segmentation [78.6612285236938]
弱制御点雲分割のための新しいDATモデル(textbfDual textbfAdaptive textbfTransformations)を提案する。
我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。
論文 参考訳(メタデータ) (2022-07-19T05:43:14Z) - Multi Projection Fusion for Real-time Semantic Segmentation of 3D LiDAR
Point Clouds [2.924868086534434]
本稿では,ポイントクラウドの複数のプロジェクションを利用する3次元ポイントクラウドセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のMulti-Projection Fusionフレームワークは、2つの異なる高効率2次元完全畳み込みモデルを用いて球面および鳥眼の視射影を解析する。
論文 参考訳(メタデータ) (2020-11-03T19:40:43Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。