論文の概要: ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI
- arxiv url: http://arxiv.org/abs/2606.17639v2
- Date: Wed, 17 Jun 2026 07:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.223221
- Title: ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI
- Title(参考訳): ERQA-Plus: 身体的AIにおける推論のための診断ベンチマーク
- Authors: Hong Yang, Basura Fernando,
- Abstract要約: ERQA-Plusは、組み込みAIの推論のための診断ベンチマークである。
711のロボット中心の画像に1,766件の質問応答がある。
- 参考スコア(独自算出の注目度): 14.957780321740394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist embodied agents require more than object recognition: they must reason about spatial relations, actions, procedures, human intentions, environmental constraints, and commonsense consequences from situated visual observations. Yet existing visual and embodied question answering benchmarks often provide limited control over the reasoning dependencies being tested, making it difficult to distinguish grounded embodied reasoning from shortcut-driven visual or linguistic pattern matching. We present ERQA-Plus, a diagnostic benchmark for reasoning in embodied AI. ERQA-Plus contains 1,766 question-answer instances grounded in 711 robot-centric images and organized according to a structured taxonomy spanning perceptual, action-centric, social-interaction, navigation-environmental, and contextual commonsense reasoning. The dataset is constructed using a multi-stage generation and validation pipeline that combines taxonomy-guided question generation, automatic quality judging, iterative revision, and human assessment to improve visual grounding, answer validity, and reasoning quality. We benchmark representative general-purpose vision-language models and embodied models, including LLaVA-NeXT-8B, Prismatic-7B, MiniCPM-V-4.5-8B, Qwen3-VL, RoboRefer-8B, and RoboBrain2.5-8B. Although the strongest model, Qwen3-VL-32B, achieves 83.4% overall accuracy and 61.4 SBERT score, category-level results reveal persistent weaknesses in spatial reasoning, procedural reasoning, event prediction, and intention inference. ERQA-Plus therefore provides a fine-grained evaluation framework for measuring not only whether embodied agents answer correctly, but also which forms of embodied reasoning they can and cannot perform reliably. The dataset is available https://huggingface.co/datasets/huggingdas/erqa-plus and the project page at https://github.com/LUNAProject22/erqa-plus.
- Abstract(参考訳): 彼らは空間的関係、行動、手続き、人的意図、環境制約、そして位置する視覚的観察による常識的な結果について考える必要がある。
しかし、既存の視覚的および具体的質問応答ベンチマークは、テスト中の推論依存性を限定的に制御するので、ショートカット駆動の視覚的または言語的パターンマッチングから基礎的な具体的推論を区別することは困難である。
具体的AIの推論のための診断ベンチマークであるERQA-Plusを提案する。
ERQA-Plusは711のロボット中心の画像に基づき、知覚、行動中心、社会的相互作用、ナビゲーション環境、コンテキストのコモンセンス推論にまたがる構造的分類に基づいて構成された1,766の質問応答インスタンスを含んでいる。
このデータセットは、分類誘導質問生成、自動品質判定、反復修正、人的評価を組み合わせて、視覚的グラウンド化、回答妥当性、推論品質を改善する多段階生成検証パイプラインを用いて構築される。
LLaVA-NeXT-8B, Prismatic-7B, MiniCPM-V-4.5-8B, Qwen3-VL, RoboRefer-8B, RoboBrain2.5-8B などの汎用視覚言語モデルとエンボディモデルのベンチマークを行った。
最強のモデルであるQwen3-VL-32Bは83.4%の精度と61.4のSBERTスコアを達成したが、カテゴリーレベルの結果は空間的推論、手続き的推論、イベント予測、意図推論において永続的な弱点を示す。
したがって、ERQA-Plusは、エンボディエージェントが正しく答えるかどうかを測定するためのきめ細かい評価フレームワークを提供する。
データセットはhttps://huggingface.co/datasets/huggingdas/erqa-plus、プロジェクトページはhttps://github.com/LUNAProject22/erqa-plusにある。
関連論文リスト
- LADBench: A Benchmark for Logical Fault Detection in Images [1.6882040908691864]
視覚言語モデル(VLM)は視覚的質問応答とセマンティックグラウンドティングに優れるが、自律的な論理的推論の能力はいまだ探索されていない。
既存の異常ベンチマークでは、オープンワールド展開に必要な物理的、社会的常識よりも、視覚的エラーや直接的なプロンプトが強調されている。
LAD-benchは4つの領域にまたがる論理異常を持つ1,000以上のキュレートされた合成画像のベンチマークである。
論文 参考訳(メタデータ) (2026-06-16T02:32:38Z) - Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models [50.6415287154632]
Embodied3DBenchは3D環境における低レベル空間インテリジェンスをターゲットにしたロボット中心のベンチマークである。
ベンチマークは12のサブカテゴリにまたがり、21万以上の高品質な質問応答ペアを含んでいる。
論文 参考訳(メタデータ) (2026-05-27T20:28:56Z) - Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models [60.418191092851636]
OmanicはオープンドメインのマルチホップQAリソースであり、推論プロセスを分析するための構造アノテーションとして分解されたサブクエストと中間回答を提供する。
10,296個の機械によるトレーニング例(Omanic Synth)と967個の専門家による注釈付き評価例(OmanicBench)を含む。
論文 参考訳(メタデータ) (2026-03-17T15:23:37Z) - TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models [0.0]
TACIT Benchmarkは、6つの推論領域にわたる10のタスクからなるプログラム的なビジュアル推論ベンチマークである。
このベンチマークでは、モデルが決定論的コンピュータビジョンパイプラインを通じて検証されたソリューションイメージを生成する必要がある生成トラックと、構造的に妥当なニアミストラクタを備えた5方向の多重選択を提供する識別トラックの2トラック評価が提供されている。
論文 参考訳(メタデータ) (2026-02-27T11:45:26Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。