論文の概要: Guide Me Out: A Framework to Benchmark VLM Operators Communication in Crisis Scenarios
- arxiv url: http://arxiv.org/abs/2606.09428v1
- Date: Mon, 08 Jun 2026 12:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.064267
- Title: Guide Me Out: A Framework to Benchmark VLM Operators Communication in Crisis Scenarios
- Title(参考訳): Guide Me Out:危機シナリオにおけるVLMオペレータのコミュニケーションのベンチマークフレームワーク
- Authors: Giacomo Gonella, Stefano Menini, Marco Guerini,
- Abstract要約: 我々は,シミュレートされた避難を通じて民間エージェントを誘導するビジョン・ランゲージ・モデル(VLM)を評価する。
我々は,2つの通信戦略(ナローキャスト対ブロードキャスト),2つの環境表現(視覚対グラフベース)と2つの脅威行動(静的対移動)を,構造的複雑さの異なる9つのマップで検証した。
以上の結果から,Narrowcastは,すべての難易度において,Broadcastと比較して文民のフェール率を一貫して低下させることがわかった。
- 参考スコア(独自算出の注目度): 9.339914898177184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective crisis response requires spatially grounded communication that bridges linguistic guidance of civilians with the physical environment, accounting for structural bottlenecks, evolving threats, and agent-specific contexts. Yet, current NLP research in crisis communication remains mainly limited to static, text-only classification settings, overlooking the critical communicative role of AI operators in dynamic, embodied scenarios. We address this gap with a novel benchmarking framework for evaluating Vision-Language Models (VLMs) tasked with guiding civilian agents through simulated evacuations. We test two communication strategies (narrowcast vs. broadcast), two environment representations (visual vs. graph-based), and two threat behaviors (static vs. moving) across nine maps of varying structural complexity. Our results show that Narrowcast consistently reduces civilian Fail rates compared to Broadcast across all difficulty levels. Guidance quality depends heavily on how the VLM operator represents the world: the visual modality drives performance, while adding an adjacency graph is model-dependent and often harmful. Moving threats raise Fail rates across all conditions as communication must continuously adapt over time. Together, these findings show that deploying VLMs as AI operators in evacuation scenarios remains a non-trivial challenge, where the choice of communication strategy and input representation can directly determine the success or failure of the intervention.
- Abstract(参考訳): 効果的な危機対応には、民間人の言語指導と物理的な環境を橋渡しし、構造的ボトルネック、進化する脅威、エージェント固有の文脈を考慮に入れた空間的根拠のあるコミュニケーションが必要である。
しかし、危機コミュニケーションにおける現在のNLP研究は主に静的なテキストのみの分類設定に限られており、動的に具体化されたシナリオにおけるAIオペレーターのクリティカルなコミュニケーション的役割を見下ろしている。
このギャップに対処するために,シミュレートされた避難を通じて民間エージェントを誘導するビジョンランゲージモデル(VLM)を評価するための新しいベンチマークフレームワークを提案する。
我々は,2つの通信戦略(ナローキャスト対ブロードキャスト),2つの環境表現(視覚対グラフベース)と2つの脅威行動(静的対移動)を,構造的複雑さの異なる9つのマップで検証した。
以上の結果から,Narrowcastは,すべての難易度において,Broadcastと比較して文民のフェール率を一貫して低下させることがわかった。
視覚的モダリティはパフォーマンスを駆動しますが、隣接グラフの追加はモデルに依存しており、しばしば有害です。
脅威の移動は、コミュニケーションが時間とともに継続的に適応しなくてはならないため、あらゆる条件でフェイルレートを上昇させる。
これらの結果から,VLMを避難シナリオにおけるAI演算子としてデプロイすることは,コミュニケーション戦略と入力表現の選択が介入の成功や失敗を直接決定できるような,極めて簡単な課題であることがわかった。
関連論文リスト
- Autonomous Adversary: Red-Teaming in the age of LLM [1.4302803674538154]
言語モデルエージェント(LMA)は、レッドチーム操作を増強するための強力なプリミティブとして現れている。
我々は、これらのエージェントが中核攻撃機能とどのように交わるかを分析し、現在の強度と限界を評価する。
制御された対向エミュレーション環境における2つの横移動シナリオのLMAをベンチマークする。
論文 参考訳(メタデータ) (2026-05-07T16:07:41Z) - ChangeQuery: Advancing Remote Sensing Change Analysis for Natural and Human-Induced Disasters from Visual Detection to Semantic Understanding [26.48338017389645]
ChangeQueryは、総合的で全天候の災害状況認識のために設計された統合されたマルチモーダルフレームワークである。
正確な損傷定量化、地域固有の記述、総合的な災害後の要約を提供するために、構造化されたデータに基づいて訓練されている。
実験では、ChangeQueryが新しい最先端のソリューションを確立し、複雑な災害監視のための堅牢で解釈可能なソリューションを提供することを示した。
論文 参考訳(メタデータ) (2026-04-24T08:05:39Z) - Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。