論文の概要: A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures
- arxiv url: http://arxiv.org/abs/2606.19277v1
- Date: Wed, 17 Jun 2026 16:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.281995
- Title: A Unified Framework for Efficient Remote Sensing Visual Question Answering: Adapting Dual, Hybrid, and Encoder-Decoder Architectures
- Title(参考訳): 視覚的質問に対する効率的なリモートセンシングのための統一フレームワーク:デュアル・ハイブリッド・エンコーダ・デコーダアーキテクチャの適応
- Authors: Timothy Agboada, Shikha Chandel, Yadav Raj Ghimire, Leila Hashemi-Beni,
- Abstract要約: リモートセンシング(RS)領域における視覚質問応答(VQA)は,高分解能,多スケール物体分布,航空画像の意味的複雑さなど,ユニークな課題を呈している。
一般ドメイン基礎モデルは非常に成功しており、RSVQAへの直接的な適用は、膨大なドメインシフトと完全な微調整の計算的に禁止された性質によって妨げられている。
軽量なアダプタを凍結したバックボーンの注意層や層に注入し,5%未満のトレーニング可能なパラメータで迅速な適応を可能にする,統一的なアーキテクチャ手術パイプラインを導入する。
- 参考スコア(独自算出の注目度): 0.27185251060695437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) in the Remote Sensing (RS) domain presents unique challenges due to the high resolution, multi scale object distribution, and semantic complexity of aerial imagery. While general domain Foundation Models have achieved remarkable success, their direct application to RSVQA is hindered by massive domain shifts and the computationally prohibitive nature of full fine tuning. This study presents a comparative analysis of RS Adapter, a Parameter Efficient Fine Tuning (PEFT) strategy, applied across three distinct Vision Language Model (VLM) architectures: the Dual Encoder CLIP, the Encoder Decoder BLIP, and the Hybrid FLAVA. We introduce a unified architectural surgery pipeline that injects lightweight bottleneck adapters into the attention and MLP layers of frozen backbones, enabling rapid adaptation with less than 5 percent of trainable parameters. Experimental results on the high resolution RSVQA x dataset demonstrate that while all adapted models achieve convergence, the Hybrid FLAVA architecture offers a superior balance of multimodal reasoning and retrieval capabilities compared to its unimodal counterparts. Our findings establish a new baseline for resource efficient VQA in disaster assessment and urban monitoring.
- Abstract(参考訳): リモートセンシング(RS)領域における視覚質問応答(VQA)は,高分解能,多スケール物体分布,航空画像の意味的複雑さなど,ユニークな課題を呈している。
一般ドメインファウンデーションモデルは目覚ましい成功を収めてきたが、RSVQAへの直接的な適用は、膨大なドメインシフトと完全な微調整の計算的に禁止された性質によって妨げられている。
本研究では、3つの異なるビジョン言語モデル(VLM)アーキテクチャ(Dual Encoder CLIP、Encoder Decoder BLIP、Hybrid FLAVA)にまたがるパラメータ効率の良い微調整(PEFT)戦略であるRS Adapterの比較分析を行った。
トレーニング可能なパラメータの5%未満で、軽量なボトルネックアダプタを注目層に注入し、凍結したバックボーンのMLP層に迅速に適応できる統一的なアーキテクチャ手術パイプラインを導入する。
高分解能RSVQA xデータセットの実験結果は、すべての適応モデルが収束を達成する一方で、ハイブリッドFLAVAアーキテクチャは、その非モダルモデルと比較してマルチモーダル推論と検索能力のバランスが優れていることを示した。
本研究は, 災害評価と都市モニタリングにおいて, 資源効率の高いVQAの新たなベースラインを確立するものである。
関連論文リスト
- Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks [3.4782736103257323]
本稿では,マルチスケール空間適応注意ネットワーク(MSAAN)と呼ばれる,軽量画像超解像(SR)ネットワークを提案する。
提案手法のコアとなるのは,局所的な細部と長期のコンテキスト依存性を協調的にモデル化する,マルチスケール空間適応型注意モジュール(MSAA)である。
論文 参考訳(メタデータ) (2026-02-22T07:47:39Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation [70.27358326228399]
任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。
AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。
超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-30T05:08:45Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。