論文の概要: S23DR 2026: End-to-End 3D Wireframe Prediction via DETR-Style Set Prediction with Contrastive Denoising
- arxiv url: http://arxiv.org/abs/2606.14811v1
- Date: Fri, 12 Jun 2026 07:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.248848
- Title: S23DR 2026: End-to-End 3D Wireframe Prediction via DETR-Style Set Prediction with Contrastive Denoising
- Title(参考訳): S23DR 2026: DeTR-Style Set Prediction with Contrastive Denoising によるエンド・ツー・エンド3次元ワイヤフレーム予測
- Authors: Nitiz Khanal,
- Abstract要約: マルチビューCOLMAP点雲からワイヤフレームを構築する方法を提案する。
SDR(Structured Semantic Reconstruction) 2026 Challengeに登録されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present WireframeDETR, our submission to the Structured Semantic 3D Reconstruction (S23DR) 2026 Challenge, which requires predicting a 3D building wireframe from multi-view COLMAP point clouds. Our method applies DETR-style set prediction directly to 3D point clouds, producing wireframes as sets of edge coordinate pairs without any intermediate vertex detection stage. We introduce three technical contributions: (1) contrastive denoising training that stabilises noisy Hungarian matching in early epochs; (2) a multi-scale encoder that aggregates the last encoder layer outputs via learned scalar weights; and (3) progressive auxiliary loss weighting that concentrates gradient signal on the decoder layers that most benefit from it. Our model achieves a public test HSS of 0.575 (F1~=~0.664, IoU~=~0.516) and a best validation HSS of 0.534 on the cleaned val split.
- Abstract(参考訳): 我々は,多視点COLMAP点雲からの3Dビルディングワイヤフレームの予測を必要とする,構造化セマンティック3D再構成(S23DR)2026チャレンジへの提案であるWireframeDETRを提案する。
本手法は,3次元点雲に直接DETRスタイルの集合予測を適用し,中間頂点検出段階を伴わないエッジ座標対の集合としてワイヤフレームを生成する。
本研究は,(1)初期エポック期における雑音の多いハンガリー語のマッチングを安定化させる対照的な復調訓練,(2)学習したスカラー重みによる最後のエンコーダ層出力を集約するマルチスケールエンコーダ,(3)最も恩恵を受けるデコーダ層に勾配信号を集中させる漸進的な補助的損失重み付け,の3つの技術的貢献を紹介する。
本モデルでは, HSS 0.575 (F1~=~0.664, IoU~=~0.516) の公試を行い, 掃除バルスプリット上での 0.534 の検証を行う。
関連論文リスト
- Edge Prediction for Roof Wireframe Reconstruction with Transformers [19.51403924424251]
本稿では,S23DRチャレンジ2026に対する競合ソリューションを提案する。
SfM点雲と地上レベルのセマンティックセグメンテーションと深度マップから3Dハウスのワイヤーフレームモデルを再構築することを目的としている。
論文 参考訳(メタデータ) (2026-06-01T15:51:30Z) - Scaling Parallel Sequence Models to Foundation-Scale Vision Encoders [123.58723804218151]
ビジョンファウンデーションモデルは、自己注意の二次的なコストによってボトルネックとなる。
2次元空間伝搬伝搬に基づくC-GSPNを提案する。
論文 参考訳(メタデータ) (2026-05-30T14:29:43Z) - Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis [5.645096759437525]
胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。
このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。
PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-16T05:24:10Z) - D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding [106.02359083803555]
今回,Chorusを紹介した。Chorusは,総合的なフィードフォワード3Dガウススプラッティング(3DGS)シーンエンコーダを学習するマルチ教師事前学習フレームワークである。
Chorusは3Dエンコーダと教師固有のプロジェクターを共用し、言語、ジェネラリスト、そしてオブジェクト指向の教師から学ぶ。
論文 参考訳(メタデータ) (2025-12-19T17:22:35Z) - DINOv3 as a Frozen Encoder for CRPS-Oriented Probabilistic Rainfall Nowcasting [0.4618037115403289]
予め訓練された衛星ビジョンエンコーダにビデオプロジェクタを取り付け、エンコーダトークンを離散経験CDFにマッピングする。
代替として、3D-UNETベースラインは、合計ランク確率スコアと画素ごとのガンマ・ハードル目標で訓練されている。
Weather4Cast 2025 ベンチマークでは、提案手法は CRPS 3.5102 で有望な性能を達成した。
論文 参考訳(メタデータ) (2025-11-14T02:14:08Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - NEAT: Distilling 3D Wireframes from Neural Attraction Fields [52.90572335390092]
本稿では,3次元再構成セグメントと焦点接合を用いたラインフレーム接合の問題について検討する。
ProjectNEATは、クロスアートマッチングをゼロから行わずに、ジョイントニューラルフィールドとビューを楽しみます。
論文 参考訳(メタデータ) (2023-07-14T07:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。