論文の概要: Vision-Language Guided Hyperspectral Object Tracking via Semantics Fusion and Contextual Template Updating
- arxiv url: http://arxiv.org/abs/2606.09167v1
- Date: Mon, 08 Jun 2026 08:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.821884
- Title: Vision-Language Guided Hyperspectral Object Tracking via Semantics Fusion and Contextual Template Updating
- Title(参考訳): セマンティックス融合とコンテキストテンプレート更新による視覚言語ガイドハイパースペクトル物体追跡
- Authors: Rui Yao, Yuhong Zhang, Kunyang Sun, Hancheng Zhu, Jiaqi Zhao, Zhiwen Shao, Abdulmotaleb El Saddik,
- Abstract要約: 本稿では,新しい高スペクトルビジョン言語(VL)共同トラッキングフレームワークであるVLHTrackを提案する。
本研究では,スペクトル冗長性の根本的な課題に対処するために,先行言語を取り入れた。
HOT2023とHOT2024の実験により、VLHTrackは最先端(SOTA)法より優れていることが示された。
- 参考スコア(独自算出の注目度): 37.920422350251904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral object tracking (HOT) leverages the rich spectral information provided by hyperspectral videos (HSVs), offering substantial potential for object tracking. However, efficiently extracting and exploiting spectral information from redundant spectral bands remains a fundamental challenge, which severely limits model generalization and tracking performance. Moreover, in dynamic scenes, targets often experience drastic appearance variations due to factors such as occlusion and illumination changes. These variations lead to large deformations between the current frame and the template. Such discrepancies pose major challenges for existing temporal modeling approaches. In this work, we propose VLHTrack, a novel hyperspectral vision-language (VL) joint tracking framework. Specifically, we incorporate language priors to address the fundamental challenge of spectral redundancy by designing a Language-Guided Band Selection Module (LBSM). By leveraging Large Language Model (LLM) descriptions, LBSM establishes a semantic-to-spectral mapping that mitigates redundancy and accentuates discriminative spectral features. A Multi-Modal Vision-Language Fusion Module is then employed to seamlessly integrate visual and linguistic embeddings, harnessing their complementary advantages to learn coherent cross-modal representations. To address target deformation in long-term sequences, we propose a dynamic update template feature strategy implemented via the Dynamic Template Update with Mamba (DTUM) module. By leveraging selective state space modeling, DTUM learns inter-frame dependencies to update template feature, ensuring efficient template feature evolution guided by temporal context. Experiments on HOT2023 and HOT2024 demonstrate that VLHTrack outperforms state-of-the-art (SOTA) methods.
- Abstract(参考訳): ハイパースペクトルオブジェクトトラッキング(HOT)は、ハイパースペクトルビデオ(HSV)が提供する豊富なスペクトル情報を活用し、オブジェクト追跡にかなりの可能性をもたらす。
しかし、冗長スペクトルバンドからスペクトル情報を効率的に抽出し、活用することは、モデル一般化と追跡性能を著しく制限する根本的な課題である。
さらに、ダイナミックなシーンでは、隠蔽や照明の変化などの要因により、ターゲットが劇的な外見の変化を経験することがしばしばある。
これらの変化は、現在のフレームとテンプレートの間に大きな変形をもたらす。
このような不一致は、既存の時間的モデリングアプローチに大きな課題をもたらす。
本稿では,新しい超スペクトル視覚言語(VL)共同追跡フレームワークであるVLHTrackを提案する。
具体的には、LBSM(Language-Guided Band Selection Module)を設計することで、スペクトル冗長性の根本的な課題に対処するために、言語優先を組み込む。
LBSMは、LLM(Large Language Model)記述を活用することで、冗長性を緩和し、識別スペクトルの特徴をアクセントする意味-スペクトルマッピングを確立する。
マルチモーダル・ビジョン・ランゲージ・フュージョン・モジュールは視覚的および言語的な埋め込みをシームレスに統合するために使用され、コヒーレントなクロスモーダル表現を学ぶための相補的な利点を利用する。
本研究では,Mamba (DTUM) モジュールを用いた動的テンプレート更新によって実装された動的更新テンプレート機能戦略を提案する。
選択的な状態空間モデリングを活用することで、DTUMはフレーム間の依存関係を学び、テンプレート機能を更新し、時間的コンテキストによってガイドされる効率的なテンプレート機能の進化を保証する。
HOT2023とHOT2024の実験により、VLHTrackは最先端(SOTA)法より優れていることが示された。
関連論文リスト
- Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models [58.9387276447485]
視覚推論 前者(VIF)は、純粋な視覚表現とモデルの出力空間の間の橋渡しを確立する軽量アーキテクチャモジュールである。
一般的な推論、OCR、テーブル理解、視覚中心の評価、幻覚を含む14のベンチマークタスクについて実験を行った。
論文 参考訳(メタデータ) (2026-05-18T10:04:22Z) - Stateful Cross-layer Vision Modulation [19.730096071316876]
マルチモーダル大言語モデル(MLLM)は、視覚表現を強化するために多層視覚特徴融合を広く採用している。
既存のアプローチは通常、表現形成プロセス自体に介入することなく、視覚符号化後の静的連結や重み付けアグリゲーションを実行する。
本稿では,これらの制約に対処する多層メモリ変調ビジョンフレームワーク(SCVM)を提案する。
論文 参考訳(メタデータ) (2026-02-28T13:57:19Z) - Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文 参考訳(メタデータ) (2026-02-06T18:48:18Z) - GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates [48.65964582402597]
視覚言語追跡は多くのシナリオで注目を集めている。
現在の視覚言語トラッカーは通常、テンプレート、検索、テキスト機能のインタラクティブな統合にTransformerアーキテクチャを使用する。
本稿では,テキスト記述とテンプレート画像の多モード融合のための拡散モデルを用いたジェネレーティブ言語・アシステD追跡モデルGLADを提案する。
論文 参考訳(メタデータ) (2026-01-31T07:24:56Z) - Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-17T18:18:59Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking [8.696516368633143]
本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。
特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。
本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
論文 参考訳(メタデータ) (2024-11-23T05:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。