Fugu-MT 論文翻訳(概要): FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

論文の概要: FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

arxiv url: http://arxiv.org/abs/2606.17020v1
Date: Mon, 15 Jun 2026 17:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 18:36:05.124898
Title: FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models
Title（参考訳）: FusionRS:Dual-Modal Vision-Language Foundationモデルのための大規模RGB赤外線リモートセンシングデータセット
Authors: Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang Guo,
Abstract要約: FusionRSは、リモートセンシングにおける視覚言語学習のための最初の大規模RGB赤外線テキストデータセットである。様々な公共RGBリモートセンシング画像を赤外線に変換し、RGB-IR画像対を形成する。実験により、FusionRSはRGB-IRアライメント、赤外線-テキスト検索、デュアルモーダルキャプションをRGB専用および非IR対応のトレーニング設定よりも改善することが示された。
参考スコア（独自算出の注目度）: 4.917364215480415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote sensing vision-language models have advanced Earth observation understanding, but most existing work remains centered on RGB imagery, leaving the complementary information in infrared data underexplored. Infrared images provide distinctive cues, including thermal intensity structures, object boundaries, and illumination-invariant scene features, which can enrich visual-language learning beyond conventional RGB observations. However, a large-scale RGB-infrared-text dataset for remote sensing vision-language modeling is still absent. To address this gap, we introduce FusionRS, the first large-scale RGB-infrared-text dataset designed for dual-modal vision-language learning in remote sensing. FusionRS is constructed by translating diverse public RGB remote sensing images into infrared-style counterparts, forming aligned RGB-IR image pairs. Each pair is associated with conventional scene captions and IR-aware captions that explicitly describe infrared-specific visual properties while preserving semantic content. Based on FusionRS, we train dual-modal vision-language foundation models for RGB-IR joint understanding. We first train CLIP-style models for RGB-IR-text alignment, and then fine-tune generative VLMs for dual-modal RGB-IR captioning. Experiments show that FusionRS improves RGB-IR alignment, infrared-to-text retrieval, and dual-modal captioning over RGB-only and non-IR-aware training settings. Ablation studies further verify that IR-aware captions are crucial for strengthening infrared-language alignment, highlighting the importance of modality-specific textual supervision for more scalable RGB-infrared remote sensing vision-language representation learning.
Abstract（参考訳）: リモートセンシングの視覚言語モデルでは、地球観測の理解が進んでいるが、既存の研究のほとんどはRGB画像を中心にしており、赤外線データの補完的な情報は未探索のままである。赤外線画像は、熱強度構造、物体の境界、照明と不変のシーンの特徴を含む独特の手がかりを提供する。しかし、リモートセンシング視覚言語モデリングのための大規模RGB赤外線テキストデータセットはいまだに存在しない。このギャップに対処するために、リモートセンシングにおけるデュアルモーダル視覚言語学習用に設計された最初の大規模RGB赤外線テキストデータセットであるFusionRSを導入する。 FusionRSは、様々な公共RGBリモートセンシング画像を赤外線スタイルのイメージに変換することで構築され、整列したRGB-IRイメージペアを形成する。各ペアは、従来のシーンキャプションと赤外線対応キャプションに関連付けられ、セマンティックコンテンツを保存しながら、赤外線特有の視覚特性を明確に記述する。 FusionRSに基づいて、RGB-IR共同理解のためのデュアルモーダル視覚言語基礎モデルを訓練する。まず、RGB-IRテキストアライメントのためのCLIPスタイルモデルをトレーニングし、次に、デュアルモーダルRGB-IRキャプションのための微調整生成VLMを訓練する。実験により、FusionRSはRGB-IRアライメント、赤外線-テキスト検索、デュアルモーダルキャプションをRGB専用および非IR対応のトレーニング設定よりも改善することが示された。アブレーション研究により、IR対応キャプションは、よりスケーラブルなRGB赤外線リモートセンシング視覚言語表現学習において、モダリティ特異的テキスト管理の重要性を強調し、赤外線アライメントを強化するために重要であることが確認された。

関連論文リスト

Thermo-VL: Extending Vision-Language Models to Thermal Infrared Perception [45.307537865864994]
視覚言語モデル(VLM)は、RGB画像から主に学習されるため、低照度で失敗することが多い。トレーニング可能な熱エンコーダとテキスト誘導デュアルアテンション融合モジュールで冷凍したMomo-7Bバックボーンを増強する波長対応VLMであるThermo-VLを提案する。実験では、熱のみとRGB+熱的推論タスクに強い効果を示し、急速条件付き多スペクトル核融合の価値を強調した。
論文参考訳（メタデータ） (2026-05-21T01:43:05Z)
Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection [45.62297680190076]
マルチスペクトルオブジェクト検出のためのバイサポートモデリングを用いたセマンティックブリッジ融合フレームワークを提案する。具体的には、テキストを共有セマンティックブリッジとして使用して、RGBおよびIR応答を統一されたカテゴリ条件下で整列させる。 RGB-IR相互作用の証拠を正規のコンセンサス支援と相補的な相補的な相補性支援に定式化する。
論文参考訳（メタデータ） (2026-04-13T09:41:01Z)
TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation [12.591408054941027]
TherAは制御可能なRGB-to-TIR翻訳フレームワークで、シーンレベルでもオブジェクトレベルでも多彩で熱可塑性の画像を生成する。 TherAは最先端の翻訳性能を実現し、ゼロショット翻訳性能が改善された。
論文参考訳（メタデータ） (2026-02-23T01:56:29Z)
IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark [6.171775609352536]
実世界の赤外線画像のためのマルチモーダル大規模言語モデルIRGPTを提案する。提案したIR-TDデータセットは、精密に手作りされたテキストとペアリングされた実際の赤外線画像を含む。 IRGPTは大規模モデルと比較して最先端の性能を実現している。
論文参考訳（メタデータ） (2025-07-19T02:53:01Z)
DiffV2IR: Visible-to-Infrared Diffusion Model via Vision-Language Understanding [43.85632218045282]
DiffV2IRは、プログレッシブラーニングモジュール(PLM)と視覚言語理解モジュール(VLUM)の2つの要素からなる画像翻訳のための新しいフレームワークである。 PLMは、多段階知識学習を活用して、フルレンジからターゲット波長への赤外線遷移を実現する適応拡散モデルアーキテクチャを備えている。 VLUMにはビジョン・ランゲージ理解が組み込まれており、様々な環境条件下で、50万枚の赤外線画像を含む大きな赤外線データセットIR-500Kも収集している。
論文参考訳（メタデータ） (2025-03-24T17:58:09Z)
Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文参考訳（メタデータ） (2025-01-25T06:21:06Z)
SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-23T11:31:11Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文参考訳（メタデータ） (2020-08-07T10:13:05Z)
Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文参考訳（メタデータ） (2020-07-03T14:24:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。