論文の概要: Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting
- arxiv url: http://arxiv.org/abs/2606.18566v1
- Date: Wed, 17 Jun 2026 00:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.944513
- Title: Multi-Modal Hyper-Graph Fusion for Low-Light Crowd Counting
- Title(参考訳): 低照度群衆計数のためのマルチモードハイパーグラフフュージョン
- Authors: Hao-Yuan Ma, Li Zhang, Yushi Qiu, Jie Gao, Yan Zhang, Bangjun Wang,
- Abstract要約: 既存の方法は、主に明るいシーンにフォーカスするか、単一モードのRed-Green-Blue (RGB)表現に依存している。
我々は,SHA_DarkとSHB_Darkという2つの合成データセットと,実世界のLC-Crowdベンチマークからなる,3つの新しい低照度群カウントベンチマークを構築した。
本稿では,RGBの出現,深度幾何学,エッジ構造を統一ハイパーグラフのノードとして用いたマルチモーダルハイパーグラフ融合モジュールを提案する。
我々は、ロバストな低照度群カウントのための統合低照度カウントネットワーク(LCNet)を開発した。
- 参考スコア(独自算出の注目度): 11.186278647833902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is a fundamental task in computer vision. However, crowd counting in low-light environments remains largely underexplored, despite its practical importance in the real world. Existing methods mainly focus on well-lit scenes or rely on single-modality Red-Green-Blue (RGB) representations, which often become unreliable under extreme darkness and complex non-uniform illumination. To handle this problem, we construct three new low-light crowd counting benchmarks, which consist of two synthetic datasets, SHA\_Dark and SHB\_Dark, and a real-world benchmark LC-Crowd (Low-light Crowd Dataset). Inspired by Retinex-based physical modeling, we introduce depth and Canny edge cues as complementary geometric and structural priors to enhance the intrinsic reflectance representation under low-light conditions. We propose a Multi-Modal Hyper-Graph Fusion module, which formulates RGB appearance, depth geometry, and edge structure cues as nodes in a unified hyper-graph and explicitly captures their high-order complementary relationships via dynamic hyperedge construction and message passing. Furthermore, to adaptively allocate computation in dense prediction, we propose a Deformable Rectangular Sparse Attention (DRSA) module, which concentrates computation on informative regions through anchor-aware estimation and adaptive rectangular window modeling. Based on these designs, we develop a unified Low-Light Counting Network (LCNet) for robust low-light crowd counting. Extensive experiments on three benchmarks demonstrate that the proposed method achieves the best overall performance against existing state-of-the-art (SOTA) methods. The code is in the supplementary material. The datasets will be made public upon acceptance.
- Abstract(参考訳): クラウドカウントはコンピュータビジョンにおける基本的なタスクである。
しかし、現実の世界では現実的な重要性があるにもかかわらず、低照度環境における群集の数はいまだに過小評価されていない。
既存の方法は、主に明るいシーンに焦点をあてたり、単一モードのRed-Green-Blue (RGB)表現を頼りにしている。
この問題に対処するため,SHA\_DarkとSHB\_Darkという2つの合成データセットと,実世界のLC-Crowd(Low-light Crowd Dataset)ベンチマークからなる3つの新しい低照度群カウントベンチマークを構築した。
低照度条件下での固有反射率表現を強化するために,レチネックスに基づく物理モデリングにヒントを得て,相補的幾何学的および構造的先行として深度とカニーエッジキューを導入した。
我々は,RGBの出現,深度幾何学,エッジ構造を統一ハイパーグラフのノードとして定義し,動的ハイパーエッジ構築とメッセージパッシングによって高次補間関係を明示的にキャプチャするマルチモーダルハイパーグラフ融合モジュールを提案する。
さらに,高密度予測における計算を適応的に割り当てるために,アンカー・アウェア推定と適応長方形ウィンドウ・モデリングにより情報領域の計算に集中する変形可能な矩形スパース・アテンション(DRSA)モジュールを提案する。
これらの設計に基づき、ロバストな低照度群カウントのためのLCNet(Low-Light Counting Network)を開発した。
3つのベンチマークによる大規模な実験により,提案手法は既存のSOTA(State-of-the-art)手法に対して最高の総合的な性能を達成できることを示した。
コードは補足資料にあります。
データセットは受理時に公開される。
関連論文リスト
- Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery [12.116457701406047]
実世界のインタラクション分析において,多人数の3D再構成が重要である。
現在のアプローチは、本質的に幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
コントラスト型マルチモーダルハイパーグラフ推論により, 群集再建のための意味的, 幾何学的, ポーズ的手がかりの相乗化を行う。
論文 参考訳(メタデータ) (2026-04-01T09:39:01Z) - SplatBright: Generalizable Low-Light Scene Reconstruction from Sparse Views via Physically-Guided Gaussian Enhancement [26.905118897488077]
SplatBrightは、スパースsRGB入力からのジョイントローライト拡張と再構成のための最初の一般化可能な3Dガウスフレームワークである。
我々のキーとなる考え方は、物理的に誘導された照明モデリングと幾何学的外観の疎結合を統合して、一貫した低照度再構成を行うことである。
SplatBright は2D と 3D の両方の手法と比較して、目立たない低照度シーンに優れた新規ビュー合成、クロスビュー一貫性、そしてより良い一般化を実現している。
論文 参考訳(メタデータ) (2025-12-21T09:06:16Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis [49.67420486373202]
GRGSは、多彩な照明条件下での高忠実なヒューマン・ノベル・ビュー・シンセサイザーのための一般的な3Dガウスのフレームワークである。
我々は, 精密深度および表面の正常度を予測するために, 合成依存データに基づいて学習した照明対応幾何微細化(LGR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:47Z) - PBIR-NIE: Glossy Object Capture under Non-Distant Lighting [30.325872237020395]
グロッシーオブジェクトは自然光下での多視点入力画像から3次元再構成を行う上で重要な課題となる。
PBIR-NIEは, 物体の形状, 材料特性, 周囲の照明を均等に捉えるために設計された逆レンダリングフレームワークである。
論文 参考訳(メタデータ) (2024-08-13T13:26:24Z) - GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM [53.6402869027093]
フレキシブルなニューラルポイントクラウド表現シーンを用いたRGBのみの高密度SLAMシステムを提案する。
また,単分子深度とともに暗黙のポーズと深さを最適化する新しいDSPO層を導入する。
論文 参考訳(メタデータ) (2024-03-28T16:32:06Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。