論文の概要: Beyond Templates: Revisiting Zero-Shot Remote Sensing through Meta-Prompting
- arxiv url: http://arxiv.org/abs/2606.20702v1
- Date: Mon, 15 Jun 2026 16:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 15:57:15.086578
- Title: Beyond Templates: Revisiting Zero-Shot Remote Sensing through Meta-Prompting
- Title(参考訳): Beyond Templates: メタプロンプティングによるゼロショットリモートセンシングの再検討
- Authors: Eirini Baltzi, Dionysis Christopoulos, Sotiris Spanos, Valsamis Ntouskos, Konstantinos Karantzalos,
- Abstract要約: 視覚言語モデル(VLM)は、ゼロショット地球観測(EO)下流タスクへの関心が高まっている。
ゼロショット性能はテキスト設計の選択に非常に敏感であることを示す。
セマンティックにリッチなクラス記述が、シンプルなドメイン適応CLIPスタイルの記述よりも一貫性のあるゲインに変換されない理由を探る。
- 参考スコア(独自算出の注目度): 2.816909824193965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have sparked growing interest in zero-shot Earth Observation (EO) downstream tasks, with further gains enabled by remote-sensing-adapted models. We examine this setting across 17 VLM variants and 12 remote sensing (RS) datasets under Meta-Prompting for Visual Recognition (MPVR), and show that zero-shot performance remains highly sensitive to textual design choices, from the meta-prompts used to guide the LLM in generating class descriptions to the descriptions themselves. We explore why semantically rich LLM-generated class descriptions do not translate into consistent gains over simple domain-adapted CLIP-style descriptions. While LLM descriptions are more semantically expressive, they can also introduce noise in the text embedding space, reducing robustness in downstream tasks. We support this observation through a text log-likelihood analysis in the whitened CLIP feature space, comparing LLM-generated and template-based descriptions. Building on this finding, we study query embedding calibration and show that lightweight calibration of the query space consistently yields strong improvements in zero-shot classification and retrieval. Overall, our results provide practical insight into the trade-off between semantic richness and robustness, and identify embedding calibration as a simple and effective tool for improving zero-shot remote sensing performance.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ゼロショット地球観測(EO)下流タスクへの関心が高まり、リモートセンシング適応モデルによってさらに向上した。
本稿では,MPVR (Meta-Prompting for Visual Recognition) による17のVLM変種と12のリモートセンシング(RS)データセットにまたがるこの設定について検討し,ゼロショット性能がテキスト設計の選択に非常に敏感であることを示す。
セマンティックにリッチなLLM生成クラス記述が、シンプルなドメイン適応CLIPスタイルの記述よりも一貫したゲインに変換されない理由を探る。
LLM記述はセマンティックに表現できるが、テキスト埋め込み空間にノイズを導入することで、下流タスクの堅牢性を低減できる。
ホワイト化されたCLIP機能空間におけるテキストログのような解析により、この観察を支援し、LCM生成とテンプレートベースの記述を比較した。
この結果に基づき,クエリの埋め込みキャリブレーションについて検討し,クエリ空間の軽量キャリブレーションが常にゼロショット分類と検索において強力な改善をもたらすことを示す。
全体として, セマンティック・リッチネスとロバストネスのトレードオフに関する実践的な知見を提供し, 組込みキャリブレーションを, ゼロショットリモートセンシング性能を向上させるための簡易かつ効果的なツールとして同定した。
関連論文リスト
- Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs [18.414159451507153]
ゼロショット参照式理解(REC)は、自然言語クエリが与えられた画像中の対象物を特定することを目的としている。
既存のビジョンランゲージモデル(VLM)は、テキストクエリと画像領域の特徴的類似性を測定することで、ゼロショットRECに対処する。
我々は、クエリ駆動のシーングラフを構造化中間体として活用した、解釈可能なゼロショットREC法である textbfSGREC を提案する。
論文 参考訳(メタデータ) (2026-03-26T04:05:30Z) - Spatial Preference Rewarding for MLLMs Spatial Understanding [92.25703021388142]
マルチモーダル大言語モデル (MLLM) は, 有望な空間理解能力を示した。
彼らの成功にもかかわらず、MLLMは依然として微粒な空間知覚能力に不足している。
本稿では,MLLMの空間能力を高めるSPR(Spatial Preference Rewarding)アプローチを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:16:18Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Steered Generation via Gradient Descent on Sparse Features [1.534667887016089]
クエリ埋め込みのスパース表現を学習するために、スパースオートエンコーダを訓練することにより、大言語モデル(LLM)の内部構造を変更する。
このスパース表現の操作は、出力を異なるスタイル的および認知的目標に向けて効果的に変換することを実証する。
論文 参考訳(メタデータ) (2025-02-25T21:06:14Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。