論文の概要: HorusEye: Language as Dynamic Attention for Emergency Visual Analysis
- arxiv url: http://arxiv.org/abs/2606.14741v1
- Date: Tue, 02 Jun 2026 20:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.761681
- Title: HorusEye: Language as Dynamic Attention for Emergency Visual Analysis
- Title(参考訳): HorusEye: 緊急視覚分析のための動的注意としての言語
- Authors: Armel Yara,
- Abstract要約: 緊急視覚分析のための動的注意のための言語HorusEyeを紹介する。
RefCOCO-Degradedは15,244枚の画像のデータセットであり、視覚的な系統的な劣化がある。
私たちの重要な発見は、言語フィードバックの有効性がモデルに依存していることです。
熱画像において,RGB性能向上のための収穫戦略が破滅的に失敗する「熱パラドックス」を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HorusEye, Language as Dynamic Attention for Emergency Visual Analysis. Our investigation followed five stages. The first one is benchmarking RefCOCO-Degraded, a dataset of 15,244 images (3,811 base images x 4 conditions: Clean, Fog, Smoke and Thermal) with systematic visual degradation. Through four research questions, we evaluate multiple VLMs (Gemini, Qwen2-VL, BLIP-2, LLaVA, Kosmos-2) across visual grounding the second stage, language feedback recovery the third one, health VQA tasks the fourth, and hallucination analysis the final stage. Our key finding is that language feedback effectiveness is model-dependent: Gemini achieves +47.3% improvement in thermal conditions through iterative language feedback, while Qwen2-VL shows -5.1% degradation under the same protocol. We also identify the 'Thermal Paradox' where cropping strategies that improve RGB performance catastrophically fail in thermal imagery. Furthermore, BLIP-2 uniquely hallucinates more under degradation, making it unsuitable for emergency deployment
- Abstract(参考訳): 緊急視覚分析のための動的注意のための言語HorusEyeを紹介する。
私たちの調査は5段階に及んだ。
ひとつは,15,244イメージ(3,811ベースイメージ x 4条件:クリーン,フォッグ,スモーク,サーマル)のデータセットであるRefCOCO-Degradedを,体系的な視覚的劣化でベンチマークするものだ。
4つの研究課題から,第2段階の視覚的基盤,第3段階の言語フィードバック回復,第4段階の健康VQAタスク,最終段階の幻覚分析の複数のVLM(Gemini,Qwen2-VL,BLIP-2,LLaVA,Kosmos-2)を評価した。
Geminiは反復的な言語フィードバックによって温度条件を+47.3%改善し、Qwen2-VLは-5.1%の劣化を示した。
また,RGB性能向上のための収穫戦略が熱画像で破滅的に失敗する「熱パラドックス」も確認した。
さらにBLIP-2は、より劣化した幻覚を呈し、緊急配備には適さない
関連論文リスト
- PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models [33.89873575295867]
我々はPokeGymを紹介した。Pokemon Legends: Z-Aは視覚的に複雑な3DオープンワールドであるRole-Playing Gameである。
PokeGymは厳格なコードレベルの分離を強制する:エージェントは生のRGB観測のみで動作するが、独立した評価器はメモリスキャンによって成功を検証する。
このベンチマークは、ナビゲーション、インタラクション、混合シナリオにまたがる30のタスク(30-220ステップ)と、3つの命令の粒度(Visual-Guided、Step-Guided、Goal-Only)で構成され、視覚的な接地、セマンティック推論、自律的な探索機能を体系的に分解する。
論文 参考訳(メタデータ) (2026-04-09T15:12:36Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - GroundSight: Augmenting Vision-Language Models with Grounding Information and De-hallucination [2.1517306866297674]
検索型拡張生成(RAG)を用いた視覚質問応答(VQA)の改善手法を提案する。
画像全体に基づいて情報を取得するのではなく、我々のアプローチは問題に最も関連するオブジェクトのまわりにバウンディングボックスを生成する。
これにより背景雑音が低減され、視覚的およびテキスト的手がかりの整合性が向上し、幻覚の緩和に役立つ。
論文 参考訳(メタデータ) (2025-09-30T02:09:07Z) - Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests [2.0176279176431744]
MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
論文 参考訳(メタデータ) (2025-06-09T04:35:02Z) - Feedback-Driven Vision-Language Alignment with Minimal Human Supervision [11.012355590697064]
SVP(Sampling-based Visual Projection)は,手作業によるテキストイメージペアや嗜好アノテーションに頼ることなく,視覚言語アライメントを向上させる新しいフレームワークである。
我々は6つの重要な領域(キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、オブジェクトリコール)にまたがるアプローチを評価した。
その結果, キャプションタスクの平均改善率は14%, オブジェクトリコールの最大12%, 幻覚の減少など, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-01-08T15:32:12Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。