論文の概要: SAM3 Self-Distillation for Fine-Grained GOOSE 2D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2606.20130v1
- Date: Thu, 18 Jun 2026 11:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.833464
- Title: SAM3 Self-Distillation for Fine-Grained GOOSE 2D Semantic Segmentation
- Title(参考訳): 細粒GOOSE 2DセマンティックセグメンテーションのためのSAM3自己蒸留法
- Authors: Xuesong Wang,
- Abstract要約: ICRA 2026 GOOSE 2D Fine-Grained Semantic Challengeについて述べる。
我々のモデルは、最近の視覚基盤モデルであるセグメンツ・アロシング・モデル3のイメージに適応する。
- 参考スコア(独自算出の注目度): 3.487520041555239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe our 4th-place entry to the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge, which reached a composite mean Intersection-over-Union (mIoU) of 69.73% on the official 1,815-image test set. Our model adapts the image encoder of a recent visual foundation model, Segment Anything Model 3 (SAM3), with a lightweight decoder. Beyond this, we contribute two techniques and one empirical finding: (i) a self-distillation scheme that re-uses SAM3 itself, prompted with ground-truth boxes, as a teacher on the classes where it outperforms our own model; (ii) an image-level multi-scale test-time augmentation scheme that restores multi-scale inference for a fixed-input-size model by rescaling the image rather than the model input; and (iii) the finding that an aggressive photometric distortion from a winning 2025 GOOSE 2D entry, transplanted onto our pipeline, is its single largest source of improvement.
- Abstract(参考訳): ICRA 2026 GOOSE 2D Fine-Grained Semantic Semantic Segmentation Challenge(ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge)の4位で、公式の1,815イメージテストセットで69.73%のインターセクション・オーバー・ユニオン(mIoU)に達した。
我々のモデルは、最近の視覚基盤モデルのイメージエンコーダ、SAM3(Segment Anything Model 3)を軽量デコーダに適応させる。
さらに2つのテクニックと1つの経験的発見に貢献します。
(i)SAM3自体を再使用する自己蒸留スキームであって、地味な箱をきっかけに、それが我々のモデルより優れている授業の教師となること。
(ii)モデル入力ではなくイメージを再スケーリングすることにより、固定入力サイズモデルのマルチスケール推論を復元する画像レベルのマルチスケールテスト時拡張方式
三 パイプラインに移植した2025 GOOSE 2Dエントリーからのアグレッシブな光度歪みが、その最大の改善源であること。
関連論文リスト
- Diffusion Image Generation with Explicit Modeling of Data Manifold Geometry [64.61931485161833]
画像生成モデルは、基礎となるデータ多様体からデータポイントをサンプリングすることを目的としている。
データマニフォールド対応画像差分法(MIND)を提案する。
MINDは離散パッチトークン化を連続拡散モデルのスコア関数に統合する。
論文 参考訳(メタデータ) (2026-05-25T08:43:14Z) - D3S2: Diffusion-Guided Dataset Distillation for Semantic Segmentation [8.30626759264565]
セグメンテーションDDには3つの重要な課題がある: (i) 長い尾のクラス不均衡、 (ii) 画像と高密度ラベル間の厳密なピクセルワイドアライメントの必要性、 (iii) 複雑なモデルで高解像度データを最適化する計算コスト。
クラスBalanced Mask Selectionでは、未表現のクラスを優先する欲求戦略を用いて代表マスクセットを構築する。
拡散誘導画像合成では、予めトレーニングされたレイアウト・ツー・イメージ拡散モデルを用いて、選択したマスクに条件付き画像を生成し、アライメントを自然に確保する。
論文 参考訳(メタデータ) (2026-05-24T12:01:38Z) - ENSAM: an efficient foundation model for interactive segmentation of 3D medical images [0.0]
ENSAMは、普遍的な3次元医用画像セグメンテーションのためのプロンプト可能なモデルである。
ENSAMは、限られたデータと計算予算の下で優れた性能を達成するように設計されている。
ENSAMは, マルチモーダル3次元医用画像を用いた隠れテストセットで評価した。
論文 参考訳(メタデータ) (2025-09-19T11:20:22Z) - HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation [3.990336239705776]
医用画像分割のための高分解能HNOSeg-XSアーキテクチャを提案する。
解像度が堅牢で、高速で、メモリ効率が良く、パラメータ効率も極めて高い。
BraTS'23、KiTS'23、MVSeg'23のデータセットでTesla V100 GPUでテストされた。
論文 参考訳(メタデータ) (2025-07-10T22:33:19Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。