論文の概要: Context-Aware Feature-Fusion for Co-occurring Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.12628v1
- Date: Wed, 10 Jun 2026 19:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.431228
- Title: Context-Aware Feature-Fusion for Co-occurring Object Detection in Autonomous Driving
- Title(参考訳): 自律運転における協調物体検出のためのコンテキスト認識機能融合
- Authors: Binay Kumar Singh, Niels Da Vitoria Lobo,
- Abstract要約: CCFF(Context-Centric Feature Fusion)と呼ばれる新しいフレームワークを提案する。
CCFFは2つの注意ベースのモジュール、LCFM(Local Context Fusion Module)とGCAM(Global Context Attention Module)を使用している。
この局所的および対象中心のグローバルな特徴の融合は、分類結果を強化し、オブジェクトの検出を共起するコンテキスト化された埋め込みをもたらす。
- 参考スコア(独自算出の注目度): 1.2533121077298057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection in autonomous driving requires precise localization and an inherent understanding of the relational context between co-occurring objects. In extremely complex heterogeneous environments rare classes, small-scale objects, and frequently appearing objects are difficult for standard object detection frameworks to handle. In this paper, we propose a novel framework called Context-Centric Feature Fusion (CCFF), which utilizes two attention-based modules, Local Context Fusion Module (LCFM) uses the RoI-to-RoI self-attention mechanism to resolve spatial interactions, mainly considering small and partially obscured objects, while Global Context Attention Module (GCAM) converts the co-occurrence of objects priors by pooling top-K RoI features into a global context attention token, avoiding the computational overhead of pixel-level global pooling. This fusion of local and object-centric global features yields contextualized embeddings that enhance classification results and co-occurring objects detection. Our method is evaluated on two datasets, Cityscapes and BDD100K which demonstrate significant improvement on relational consistency, achieving a Category-level Consistency Strategy (CCS) of 0.973 and 0.969, respectively. Furthermore, our approach produces substantial gains in small object detection (AP_S: 14.1%) and successfully recovers rare classes such as "Train" that are typically lost in large distributions. Our efficiency report shows that the framework processes images in real time with a 0.2 FPS overhead. The code is available at https://github.com/BinayKSingh/CCFF.
- Abstract(参考訳): 自律運転における物体検出には、正確な位置決めと、共起物体間の関係状況の固有の理解が必要である。
非常に複雑な異種環境では、まれなクラス、小さなオブジェクト、頻繁に現れるオブジェクトは、標準のオブジェクト検出フレームワークが扱うのが難しい。
本稿では,局所的コンテキスト融合モジュール(LCFM)とRoI-to-RoI自己アテンション機構(ROI-to-RoI自己アテンション機構)の2つのアテンションベースのモジュールを利用した,CCFF(Context-Centric Feature Fusion)と呼ばれる新しいフレームワークを提案する。
この局所的および対象中心のグローバルな特徴の融合は、分類結果を強化し、オブジェクトの検出を共起するコンテキスト化された埋め込みをもたらす。
本手法はCityscapesとBDD100Kの2つのデータセットで評価され,それぞれ0.973と0.969のカテゴリレベルの一貫性戦略(CCS)を達成している。
さらに,本手法は小型物体検出(AP_S: 14.1%)において著しく向上し,典型的には大きな分布で失われる「トレイン」のような希少なクラスを回復することに成功した。
我々の効率報告は、このフレームワークが0.2FPSオーバーヘッドでリアルタイムで画像を処理していることを示している。
コードはhttps://github.com/BinayKSingh/CCFFで公開されている。
関連論文リスト
- Finding Distributed Object-Centric Properties in Self-Supervised Transformers [59.00547715011873]
自己監督型視覚変換器(ViT)は、最終層のトークンアテンションマップでよく見られる、オブジェクトを発見できる創発的な能力を示す。
これは、[]トークンがイメージレベルの目的に基づいてトレーニングされ、オブジェクトにフォーカスするのではなく、全体像を要約しているためです。
我々は、この分散オブジェクト中心情報を抽出するトレーニング不要なObject-DINOを提案する。
論文 参考訳(メタデータ) (2026-03-27T07:22:04Z) - UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。
既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。
高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:59:16Z) - Robust Context-Aware Object Recognition [15.318646611581741]
RCORは、ローカライゼーションを認識の不可欠な部分として扱い、オブジェクト中心およびコンテキスト認識モデリングを分離する。
その結果、ImageNet-1kのような複雑なシーンでも、認識前のローカライゼーションが可能になった。
論文 参考訳(メタデータ) (2025-10-01T07:45:38Z) - MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [12.838872442435527]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。