論文の概要: Segmentation-based Detection for Efficient Multi-Task Spacecraft Perception
- arxiv url: http://arxiv.org/abs/2606.15409v1
- Date: Sat, 13 Jun 2026 17:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.551988
- Title: Segmentation-based Detection for Efficient Multi-Task Spacecraft Perception
- Title(参考訳): セグメンテーションに基づく高能率マルチタスク宇宙機知覚の検出
- Authors: Sivaperuman Muniyasamy, Surendar Devasundaram,
- Abstract要約: 我々は,MobileNetV3エンコーダとU-Netスタイルのデコーダを統合したコンパクトアーキテクチャを提案する。
本手法では,タスク固有のスコアが10000,検出が0.9788,セグメンテーションが0.8917であった。
提案されたアプローチは、SPARK 2026 Challengeで総合的に第2位にランクされ、軽量エンコーダデコーダアーキテクチャが強力なマルチタスク性能を提供できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-based perception is fundamental to Space Situational Awareness and autonomous on-orbit operations such as rendezvous, docking, servicing, and navigation. However, progress in this area is limited by the scarcity of annotated space imagery and by challenging visual-domain characteristics including severe illumination changes, low signal-to-noise ratio, and high contrast. We address Stream 1 of the SPARK 2026 Challenge, which requires a single model for spacecraft classification, detection, and fine-grained component segmentation across multiple target types. We propose a compact architecture that integrates a MobileNetV3 encoder with a U-Net-style decoder, combining computational efficiency with accurate dense prediction. Detection is derived analytically from the union of predicted component masks, avoiding a separate bounding-box regression head in the single-spacecraft setting. Our method achieved an overall leaderboard score of 0.9482, with task-specific scores of 1.0000 in classification, 0.9788 in detection, and 0.8917 in segmentation. The proposed approach ranked second overall in the SPARK 2026 Challenge, demonstrating that lightweight encoder-decoder architectures can deliver strong multi-task performance for practical onboard space vision systems.
- Abstract(参考訳): 視覚に基づく認識は、宇宙状況認識とランデブー、ドッキング、サービス、ナビゲーションのような自律的な軌道上の操作の基礎である。
しかし、この領域の進展は、注釈付き空間画像の不足や、激しい照明変化、低信号-雑音比、高コントラストを含む視覚領域特性の挑戦によって制限されている。
我々は、SPARK 2026 Challengeのストリーム1に対処する。これは、宇宙船の分類、検出、および複数のターゲットタイプにわたるきめ細かなコンポーネントセグメンテーションのための単一のモデルを必要とする。
計算効率と高精度な密度予測を併用し,MobileNetV3エンコーダとU-Netスタイルのデコーダを統合したコンパクトアーキテクチャを提案する。
検出は、予測されたコンポーネントマスクの結合から解析的に導出され、単機設定での別個のバウンディングボックス回帰ヘッドを避ける。
本手法では,タスク固有のスコアが10000,検出が0.9788,セグメンテーションが0.8917であった。
提案手法はSPARK 2026 Challengeで総合的に第2位にランクされ、軽量エンコーダデコーダアーキテクチャが実用的な宇宙ビジョンシステムに強力なマルチタスク性能を提供できることを示した。
関連論文リスト
- Scaling Parallel Sequence Models to Foundation-Scale Vision Encoders [123.58723804218151]
ビジョンファウンデーションモデルは、自己注意の二次的なコストによってボトルネックとなる。
2次元空間伝搬伝搬に基づくC-GSPNを提案する。
論文 参考訳(メタデータ) (2026-05-30T14:29:43Z) - Polygon-mamba: Retinal vessel segmentation using polygon scanning mamba and space-frequency collaborative attention [9.838390322438535]
ポリゴン走査型マンバと小血管検出のための空間周波数協調型アテンション機構を統合したCNN-マンバ核融合ネットワークを設計する。
水平垂直走査による伝統的なマンバ構造は, 対象構造物の位相的整合性を損なう可能性があることを考慮し, 細血管構造の特徴を特定するために, ポリゴン走査型視覚状態空間モデル(PS-VSS)を提案する。
論文 参考訳(メタデータ) (2026-05-11T13:53:51Z) - LightAVSeg: Lightweight Audio-Visual Segmentation [67.18006751024687]
LightAVSegは、セマンティックフィルタリングと空間接地のための分離された設計に置き換わっている。
実験では、軽量メソッド間で新しい最先端を実現することを実証している。
MS3ベンチマークで50.4 mIoUに達し、モバイルプロセッサでの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2026-05-09T08:47:54Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。