論文の概要: Evaluating and Enhancing Negation Comprehension in Remote Sensing MLLMs
- arxiv url: http://arxiv.org/abs/2606.20177v2
- Date: Mon, 22 Jun 2026 09:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.921937
- Title: Evaluating and Enhancing Negation Comprehension in Remote Sensing MLLMs
- Title(参考訳): リモートセンシングMLLMにおける否定理解の評価と強化
- Authors: Haochen Han, Jue Wang, Alex Jinpeng Wang, Fangming Liu,
- Abstract要約: 本稿では,地域レベルからシーンレベルのタスクに対する否定的理解を評価する最初のベンチマークであるRS-Negを紹介する。
モデル最適化に否定の論理的役割を明示的に組み込む新しいテスト時間学習手法NeFoを提案する。
- 参考スコア(独自算出の注目度): 21.808192032202232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in various Remote Sensing (RS) tasks. However, their ability to comprehend negation remains underexplored, limiting deployment in real-world applications where models must explicitly identify what is false or absent, e.g., emergency responders need to locate non-flooded routes for evacuation. To comprehensively study this limitation, we introduce RS-Neg, the first benchmark to evaluate negation understanding across region-level to scene-level tasks. Specifically, we design an automated data generation pipeline for RS imagery, using LLMs to synthesize diverse negation queries, and introduce a dynamic visual focus module for verification. Our evaluation reveals that advanced RS MLLMs struggle with negation, exhibiting hallucinations and substantial performance degradation. To close this gap, we propose NeFo, a novel test-time learning method that explicitly incorporates the logical role of negation into the model optimization. Remarkably, using about 5\% unlabeled test samples, NeFo significantly improves the negation understanding of models and shows strong generalization to unseen tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なリモートセンシング(RS)タスクにおいて顕著な成功を収めている。
しかし、彼らの否定を理解する能力は未解明のままであり、モデルが偽物や不在物を明確に識別しなければならない現実世界のアプリケーションでは、緊急対応者は避難のための非フロードルートを見つける必要がある。
この制限を包括的に研究するために,地域レベルからシーンレベルのタスクに対する否定的理解を評価する最初のベンチマークであるRS-Negを紹介する。
具体的には、RS画像のための自動データ生成パイプラインを設計し、LLMを用いて多様な否定クエリを合成し、検証のための動的ビジュアルフォーカスモジュールを導入する。
評価の結果, 高度なRS MLLMは否定に苦慮し, 幻覚を呈し, 性能劣化が顕著であった。
このギャップを埋めるために、モデル最適化に否定の論理的役割を明示的に組み込む新しいテスト時間学習法NeFoを提案する。
注目すべきは、約5\%のラベルなしテストサンプルを使用することで、NeFoはモデルの否定的理解を大幅に改善し、目に見えないタスクに対して強力な一般化を示すことである。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Negation-Aware Test-Time Adaptation for Vision-Language Models [26.043679706381646]
視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
論文 参考訳(メタデータ) (2025-07-25T08:25:48Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。