Fugu-MT 論文翻訳(概要): Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization

論文の概要: Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization

arxiv url: http://arxiv.org/abs/2606.16898v1
Date: Mon, 15 Jun 2026 16:07:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.752056
Title: Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization
Title（参考訳）: 意味的フリップ: 身体的質問応答と空間的位置推定におけるロバスト拒絶のための合成OOD生成
Authors: Dongbin Na, Chanwoo Kim, Giyun Choi, Dooyoung Hong,
Abstract要約: 現代の視覚言語モデル(VLM)は、利用可能なビジュアルメモリがクエリをサポートできない場合でも、自信過剰な回答を生成することが多い。本研究はセマンティック・フリップ(Semantic Flip)を提案する。
参考スコア（独自算出の注目度）: 10.424119155941748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting unanswerable user queries remains essential for the reliable deployment of real-world embodied agents. However, modern vision-language models (VLMs) often generate overly confident answers even when the available visual memory cannot support the query. Such overconfidence poses various task-dependent risks. The agent may provide misleading information to the user in Embodied Question Answering and select an arbitrary coordinate and physically guide the user there in spatial reasoning for navigation. Despite these high stakes, only a few prior studies directly address when and how an embodied VLM should respond with "I do not know." This work proposes Semantic Flip, a simple yet effective framework that synthesizes auxiliary out-of-distribution (OOD) samples for embodied refusal without requiring external OOD annotations. The key idea is to independently transform the query and video memory to construct auxiliary OOD pairs that lack sufficient visual grounding. These synthesized pairs enable training a lightweight rejection module on top of a frozen pretrained VLM. The module attaches to any existing VLM-based pipeline without retraining the underlying model. Across two complementary benchmarks, Semantic Flip consistently outperforms strong prompting baselines. This work also introduces SpaceReject, a new refusal benchmark for spatial localization with deliberately unanswerable queries over long video memory, where Semantic Flip achieves an $F_1$ score of 0.9559. The source codes and datasets are publicly available at https://github.com/ndb796/SemanticFlip.
Abstract（参考訳）: 現実のエンボディドエージェントの信頼性の高いデプロイには、解決不可能なユーザクエリの検出が不可欠である。しかしながら、現代の視覚言語モデル(VLM)は、利用可能なビジュアルメモリがクエリをサポートできない場合でも、過度に自信を持った答えを生成することが多い。このような過度な自信は、様々なタスク依存のリスクを引き起こす。エージェントは、Embodied Question Answeringにおいてユーザに対して誤解を招く情報を提供し、任意の座標を選択し、ナビゲーションのための空間的推論でユーザを物理的に誘導することができる。これらの高い利害関係にもかかわらず、VLMがいつどのように反応するかを「私は知らない」と直接言及する先行研究はごくわずかである。本研究はセマンティック・フリップ (Semantic Flip) を提案する。セマンティック・フリップ (Semantic Flip) は、外部のOODアノテーションを必要とせず、補助的なオフ・オブ・ディストリビューション (OOD) サンプルを合成する単純なフレームワークである。キーとなる考え方は、クエリとビデオメモリを独立して変換して、十分な視覚的基盤を持たない補助的なOODペアを構築することである。これらの合成ペアは、凍結事前訓練されたVLMの上に軽量の拒絶モジュールを訓練することができる。モジュールは、基盤となるモデルを再トレーニングすることなく、既存のVLMベースのパイプラインにアタッチされる。 2つの相補的なベンチマークで、Semantic Flipは一貫して、強力なプロンプトベースラインを上回っている。この研究は、空間ローカライゼーションのための新しい拒絶ベンチマークであるSpaceRejectも導入した。これは、長いビデオメモリ上で意図的に解決不可能なクエリで、Semantic Flipが0.9559のF_1$スコアを達成している。ソースコードとデータセットはhttps://github.com/ndb796/SemanticFlip.comで公開されている。

関連論文リスト

WildRoadBench: A Wild Aerial Road-Damage Grounding Benchmark for Vision-Language Models and Autonomous Agents [18.115492558482995]
WildRoadBenchを紹介します。視覚フィードバックモデルによる直接的な視覚的接地と、LCM駆動エージェントによる自律的な研究とエンジニアリングを結合する。我々は、複数のフロンティアLPM駆動エージェントとともに、クローズドソースフロンティアモデルとオープンソースVLMの広範なプールをベンチマークする。
論文参考訳（メタデータ） (2026-05-19T15:08:34Z)
One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement [37.27419953581617]
大きな言語モデル(LLM)は、しばしば潜伏する推論機能を利用することができない。本稿では推論時間アライメントタスクとして推論誘発を扱うモジュラーフレームワークReQueRを提案する。
論文参考訳（メタデータ） (2026-04-28T09:52:21Z)
Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文参考訳（メタデータ） (2026-04-13T20:22:22Z)
AdaptFuse: Training-Free Sequential Preference Learning via Externalized Bayesian Inference [24.596125996494717]
既存のソリューションでは、機密性の高いユーザーインタラクションデータを微調整する必要がある。本稿では,LLM の原理的確率計算を外部化する,トレーニング不要なフレームワーク AdaptFuse を提案する。本稿では,フライトレコメンデーション,ホテルレコメンデーション,Webショッピングの3分野にわたるAdaptFuseを評価する。
論文参考訳（メタデータ） (2026-04-05T01:35:50Z)
Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文参考訳（メタデータ） (2026-01-05T10:16:41Z)
FreeRet: MLLMs as Training-Free Retrievers [21.04237443940747]
FreeRetは、任意のMLLMを2段階のレトリバーに変換するプラグイン・アンド・プレイフレームワークである。 MMEBとMMEB-V2のベンチマークでは、FreeRetは何百万ものペアでトレーニングされたモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2025-09-29T11:28:42Z)
Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。 Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文参考訳（メタデータ） (2025-05-21T18:32:43Z)
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。 QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文参考訳（メタデータ） (2025-03-11T17:59:57Z)
Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves? [61.899791071654654]
本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文参考訳（メタデータ） (2024-04-09T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。