論文の概要: LADBench: A Benchmark for Logical Fault Detection in Images
- arxiv url: http://arxiv.org/abs/2606.17433v1
- Date: Tue, 16 Jun 2026 02:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.22222
- Title: LADBench: A Benchmark for Logical Fault Detection in Images
- Title(参考訳): LADBench:画像の論理的欠陥検出ベンチマーク
- Authors: Sahasra Kondapalli, Lara Radovanovic, Aadi Palnitkar, Mingyang Mao, Xiaomin Lin,
- Abstract要約: 視覚言語モデル(VLM)は視覚的質問応答とセマンティックグラウンドティングに優れるが、自律的な論理的推論の能力はいまだ探索されていない。
既存の異常ベンチマークでは、オープンワールド展開に必要な物理的、社会的常識よりも、視覚的エラーや直接的なプロンプトが強調されている。
LAD-benchは4つの領域にまたがる論理異常を持つ1,000以上のキュレートされた合成画像のベンチマークである。
- 参考スコア(独自算出の注目度): 1.6882040908691864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (VLMs) excel at visual question answering and semantic grounding, but their capacity for autonomous logical reasoning remains underexplored. Existing anomaly benchmarks emphasize visual errors or direct prompting rather than the physical and social common sense needed for open-world deployment. To address this, we introduce LAD-bench, a benchmark of more than 1,000 curated synthetic images with logical anomalies across four domains: Residential, Urban, Collaborative, and Nature. We further propose a Tiered Prompting Protocol based on progressive disclosure, which measures how much explicit assistance a model needs to localize and reason about a logical fault. Evaluating leading foundation models reveals substantial weaknesses: even the best achieves only 70.11% overall accuracy, showing that implicit logical fault detection remains unsolved. Crucially, models often fail to identify anomalies even after receiving explicit hints in deeper tiers. By surfacing these limitations in sequential multimodal reasoning, LAD-Bench offers a rigorous framework for advancing the safety, reliability, and cognitive alignment of autonomous visual systems. Dataset and Code: https://huggingface.co/datasets/SahasraK/LADBench
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚的質問応答とセマンティックグラウンドティングに優れるが、自律的な論理的推論の能力はいまだ探索されていない。
既存の異常ベンチマークでは、オープンワールド展開に必要な物理的、社会的常識よりも、視覚的エラーや直接的なプロンプトが強調されている。
LAD-benchは、4つの領域(居住、都市、協力、自然)にまたがる論理異常を持つ1,000以上のキュレートされた合成画像のベンチマークである。
さらに,プログレッシブ開示に基づく階層型プロンプトプロトコルを提案する。このプロトコルは,モデルが論理的欠陥をローカライズし,推論するためにどの程度の明示的な支援が必要であるかを測定する。
最良でさえ、全体的な精度は70.11%に過ぎず、暗黙の論理的欠陥検出は未解決のままである。
重要なことに、モデルはより深い層で明示的なヒントを受け取った後でも、しばしば異常を識別できない。
シーケンシャルなマルチモーダル推論においてこれらの制限を克服することにより、LAD-Benchは自律的な視覚システムの安全性、信頼性、認知的整合性を向上させるための厳密な枠組みを提供する。
データセットとコード:https://huggingface.co/datasets/SahasraK/LADBench
関連論文リスト
- ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI [14.957780321740394]
ERQA-Plusは、組み込みAIの推論のための診断ベンチマークである。
711のロボット中心の画像に1,766件の質問応答がある。
論文 参考訳(メタデータ) (2026-06-16T07:56:33Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models [0.0]
TACIT Benchmarkは、6つの推論領域にわたる10のタスクからなるプログラム的なビジュアル推論ベンチマークである。
このベンチマークでは、モデルが決定論的コンピュータビジョンパイプラインを通じて検証されたソリューションイメージを生成する必要がある生成トラックと、構造的に妥当なニアミストラクタを備えた5方向の多重選択を提供する識別トラックの2トラック評価が提供されている。
論文 参考訳(メタデータ) (2026-02-27T11:45:26Z) - LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification [24.91906506651266]
本稿では,マルチパス論理推論を体系的に評価する最初のベンチマークであるLogicGraphを紹介する。
このパイプラインは、高深度マルチパス推論によって定式化されたソルバ検証推論問題を導出する。
収束状態と発散状態の両方においてモデル性能を厳格に評価する参照フリー評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-24T16:04:26Z) - SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文 参考訳(メタデータ) (2026-02-24T13:38:37Z) - Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning [16.274791437311602]
本稿では,ロボット故障検出と推論のための適応ラウンドベースマルチタスクmOdelについて紹介する。
マルチタスク・セルフリファインメント・プロセスとして検出と推論を定式化する。
ARMORは,従来の手法を最大30%の故障検出率で改善し,最先端の性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-02-12T20:55:36Z) - Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection [85.29900916231655]
Reason-IADは、説明可能な産業異常検出のための知識誘導型動的潜在推論フレームワークである。
実験により、Reason-IADは最先端の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-10T14:54:17Z) - Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies [40.03295633717008]
視覚錯覚と異常のモデル性能を探索するベンチマークであるVIA-Benchを紹介する。
我々は1K以上の高品質な問合せ対を構築し、微妙な視覚的推論を必要とする。
以上の結果から,知覚的ボトルネックの解消が人工知能の進歩に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-02T08:48:03Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。