論文の概要: GOOSE-M2F: Adapting Mask2Former for High-Fidelity, Long-Tailed Fine-Grained Semantic Segmentation in Unstructured Outdoor Terrain
- arxiv url: http://arxiv.org/abs/2606.15937v2
- Date: Tue, 16 Jun 2026 07:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.814427
- Title: GOOSE-M2F: Adapting Mask2Former for High-Fidelity, Long-Tailed Fine-Grained Semantic Segmentation in Unstructured Outdoor Terrain
- Title(参考訳): GOOSE-M2F:非構造外地層における高忠実長尺細粒セマンティックセマンティックセグメンテーションのためのMask2Formerの適応
- Authors: Jyothiraditya Lingam, Nikhileswara Rao Sulake, Sai Manikanta Eswar Machara,
- Abstract要約: GOOSE 2D Fine-Grained Semantic (FGSS) Challenge at ICRA 2026。
GOOSEベンチマークは、構造化されていない屋外の地形で64の微細なクラスにまたがっており、非常に長い尾の分布を持ち、希少なクラスは画像あたり50ピクセル未満である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GOOSE-M2F, a task-specific adaptation of Mask2Former for the GOOSE 2D Fine-Grained Semantic Segmentation (FGSS) Challenge at ICRA 2026. The GOOSE benchmark spans 64 fine-grained classes across unstructured outdoor terrain with a severely long-tailed distribution, where rare classes occupy fewer than 50 pixels per image. We extend the Swin-Large Mask2Former baseline with three targeted contributions: (1) 200 object queries to eliminate representational saturation; (2) a Feature Refinement Module (FRM) combining ASPP-lite and CBAM dual-attention; and (3) an Auxiliary Supervision Head that delivers direct per-pixel gradients for rare classes. A multi-stage training strategy pairs Distribution-Balanced loss, Rare-Class Copy-Paste augmentation, dynamic IoU-aware re-weighting, and EMA. At inference, a dense sliding-window engine with 2D Gaussian kernel blending and 4-scale TTA adds +10.57%. GOOSE-M2F achieves 70.08% Official Composite mIoU (63.55% fine, 76.61% coarse), placing 3rd on the GOOSE 2D FGSS leaderboard. Code and trained models are publicly available at GitHub: https://github.com/Aditya-Lingam-9000/GOOSE-M2F and Hugging Face: https://huggingface.co/XYZ9843/GOOSE-M2F.
- Abstract(参考訳): GOOSE 2D Fine-Grained Semantic Segmentation (FGSS) Challenge at ICRA 2026。
GOOSEベンチマークは、構造化されていない屋外の地形で64の微細なクラスにまたがっており、非常に長い尾の分布を持ち、希少なクラスは画像あたり50ピクセル未満である。
我々は,(1)表現飽和をなくすための200のオブジェクトクエリ,(2)ASPP-liteとCBAMのデュアルアテンションを組み合わせた機能リファインメントモジュール(FRM),(3)稀なクラスに対して直接ピクセル単位の勾配を提供する補助スーパービジョンヘッドの3つを目標として,Swin-Large Mask2Formerベースラインを拡張した。
多段階のトレーニング戦略は、配電損失、希少なコピー・ペースト強化、動的IoU認識再重み付け、EMAをペアリングする。
推測では、2Dガウス核と4スケールのTTAを混合した高密度なスライドウインドウエンジンは+10.57%増加した。
GOOSE-M2Fは70.08%のオフィシャルコンポジットmIoU(63.55%の罰金76.61%)を達成し、GOOSE 2D FGSSのリーダーボードで3位となった。
コードとトレーニングされたモデルはGitHubで公開されている。 https://github.com/Aditya-Lingam-9000/GOOSE-M2F and Hugging Face: https://huggingface.co/XYZ9843/GOOSE-M2F。
関連論文リスト
- UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image [58.14192385042352]
マルチモーダル・リワードベンチ2(MMRB2)は,マルチモーダル理解と(インターリーブされた)生成に対する報酬モデルの最初のベンチマークである。
MMRB2はテキスト・ツー・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル推論の4つのタスクにまたがる。
21のソースタスクにわたる23のモデルとエージェントから、タスク毎に1000のエキスパートアノテートされた好みペアを提供する。
論文 参考訳(メタデータ) (2025-12-18T18:56:04Z) - CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification [5.503948543987285]
CerraData-4MMは、Sentinel-1 Synthetic Aperture Radar (SAR)とSentinel-2 MultiSpectral Imagery (MSI)を組み合わせたデータセットである。
データセットには、それぞれ7クラスと14クラスからなる2つの階層的な分類レベルが含まれており、多様なBico do Papagaio eco Regionに焦点を当てている。
我々は、標準的なU-Netとより洗練されたビジョントランスフォーマー(ViT)モデルを評価することにより、高度なセマンティックセグメンテーション手法をベンチマークするCerraData-4MMの能力を強調した。
論文 参考訳(メタデータ) (2025-01-31T15:57:17Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Mask2Map: Vectorized HD Map Construction Using Bird's Eye View Segmentation Masks [9.113769643415868]
本稿では,自動運転アプリケーション用に設計された,新しいエンドツーエンドのオンラインHDマップ構築手法であるMask2Mapを紹介する。
このアプローチでは、シーン内のマップインスタンスのクラスと順序付けられたポイントセットを予測することに重点を置いています。
Mask2Mapは、従来の最先端メソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-18T13:48:52Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。