論文の概要: Technical Report for the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Pretraining-Diverse Ensemble of Foundation Vision Encoders for Robust Outdoor Scene Understanding
- arxiv url: http://arxiv.org/abs/2606.23113v1
- Date: Mon, 22 Jun 2026 09:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:19:01.041842
- Title: Technical Report for the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Pretraining-Diverse Ensemble of Foundation Vision Encoders for Robust Outdoor Scene Understanding
- Title(参考訳): ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Pretraining-Diverse Ensemble of Foundation Vision Encoders for Robust Outdoor Scene Understanding 参加報告
- Authors: Boyan Wang, Yongxi Huang, Wenjing Li, Tianrui Hui, Shaofei Huang, Nan Pu, Zhun Zhong,
- Abstract要約: ICRA 2026 GOOSE 2D Fine-Grained Semantic Challengeでは、4つのカメラプラットフォームから56のきめ細かいカテゴリに非構造屋外シーンを解析する必要がある。
アプローチでは、基礎的なビジョンエンコーダとMask2Formerデコーダを組み合わせ、強力なレシピでトレーニングする。
提案は75.40%の合成mIoUを達成し,第2位を獲得した。
- 参考スコア(独自算出の注目度): 43.9978897868123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents our solution for the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge, which requires parsing unstructured outdoor scenes from four camera platforms into 56 fine-grained categories. Our approach pairs foundation vision encoders (including DINOv3, SigLIP2, and InternImage) with a Mask2Former decoder, and trains them with a strong recipe including long training schedules, exponential moving average, a larger crop size, and multi-scale plus flip test-time augmentation. The three encoders, chosen for their complementary pretraining objectives, are combined into a pretraining-diverse ensemble through per-class validation-IoU weighting. Evaluated on the official GOOSE test set, our submission achieves 75.40% composite mIoU and wins the second place of the challenge. Our study further shows that the encoder's pretraining recipe, rather than its parameter count or the decoder design, is the dominant factor for accuracy on this benchmark.
- Abstract(参考訳): 本報告では, ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challengeの解決法について述べる。
アプローチでは,基礎視覚エンコーダ(DINOv3,SigLIP2,InternImageを含む)をMask2Formerデコーダと組み合わせて,長いトレーニングスケジュール,指数的移動平均,より大きな作物サイズ,マルチスケール+フリップテストタイム拡張を含む強力なレシピでトレーニングする。
相補的な事前学習目的のために選択された3つのエンコーダは、クラスごとの検証-IoU重み付けにより、事前訓練された多様なアンサンブルに結合される。
GOOSEの公式テストセットで評価し,75.40%の合成mIoUを達成し,第2位を獲得した。
さらに本研究では, パラメータ数やデコーダ設計よりも, エンコーダの事前学習レシピが, 精度向上の要因であることを示す。
関連論文リスト
- Technical Report for ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Exploring Query-Based Segmentation and Increased Spatial Context for Outdoor Scene Understanding [2.685567215235468]
GOOSE 2D Fine-Grained Semantic ChallengeをICRA 2026のフィールドロボティクスワークショップの一環として開催する。
この課題は、56のきめ細かいクラスと11のより広いカテゴリの階層的な分類法を用いて注釈付けされた、GOOSEデータセットとGOOSE-Exデータセットのデータを組み合わせている。
最終提出は、挑戦テストセットの69.6%のmIoUを達成し、屋外環境におけるきめ細かいセマンティックセグメンテーションのための強力なベースラインを提供する。
論文 参考訳(メタデータ) (2026-06-19T14:13:04Z) - SAM3 Self-Distillation for Fine-Grained GOOSE 2D Semantic Segmentation [3.487520041555239]
ICRA 2026 GOOSE 2D Fine-Grained Semantic Challengeについて述べる。
我々のモデルは、最近の視覚基盤モデルであるセグメンツ・アロシング・モデル3のイメージに適応する。
論文 参考訳(メタデータ) (2026-06-18T11:54:07Z) - Technical Report for ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Leveraging DINOv3 for Robust Outdoor Scene Understanding in Field Robotics [8.77371742508379]
GOOSE 2D Fine-Grained Semantic Challengeはオフロード画像の密接なセマンティックセマンティックセグメンテーションを評価する。
この課題に対する第一の解決策を提示する。
論文 参考訳(メタデータ) (2026-06-17T01:13:22Z) - Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs [50.3757247538081]
我々は、統一パイプラインの下で、5つの共通ビジョンエンコーダの空でないサブセット31を再訓練し、評価する。
各エンコーダのコントリビューションを,容量と必要量という2つの軸に分解する。
エンコーダごとのプロジェクタ有効ランクは、残留スコアの変動を説明する。
論文 参考訳(メタデータ) (2026-06-02T16:46:42Z) - TempRet: Temporal Enhancement and Two-Stage Reranking for CVPR 2026 EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge [71.10535279591527]
我々は,CVPR 2026 EPIC-KITCHENS-100 MIRチャレンジに対して,TempRetと呼ばれるソリューションを提示する。
当社のアプローチは,CLIPベースのデュアルエンコーダのバックボーン上に構築されており,時間的および横断的な課題に対処するための2つの重要なコンポーネントを導入している。
EK-100 MIRベンチマークでは,平均mAPは67.97%,平均nDCGは82.92%であった。
論文 参考訳(メタデータ) (2026-05-23T08:37:39Z) - LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction [0.05978532290288763]
本稿では,生の指紋画像を微細な記述子にマッピングするニューラルネットワークであるLEADER(Lightweight End-to-end Attention-gated Dual autoencodER)を紹介する。
新しく作られた"Castle-Moat-Rampart"のグラウンドトルースエンコーディングと、アテンションゲーティング機構を介して相互接続されたデュアルオートコーダ構造を採用している。
NIST SD27データセットでF1スコアが34%高い。
論文 参考訳(メタデータ) (2026-02-17T11:02:28Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。