論文の概要: AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties
- arxiv url: http://arxiv.org/abs/2606.14240v1
- Date: Fri, 12 Jun 2026 08:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.823311
- Title: AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties
- Title(参考訳): AFFORDANCE20Q: 物理特性からのアフォーマンス推論の評価
- Authors: Yifan Jiang, Meige Yang, Zitong Li, Jay Pujara,
- Abstract要約: Affordance20Qは、20クエストゲームとして定式化された新しい割当推論ベンチマークである。
各ゲームにおいて、モデルは、その物理的性質についてイエス/ノーに質問することで、候補セットから隠れたオブジェクトの余裕を識別する。
Affordance20Qは454個のオブジェクトに1,009個のゲームと59個の余裕を持ち、すべて手動でフィルターされ、洗練され、注釈付けされている。
- 参考スコア(独自算出の注目度): 16.873876904469697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git
- Abstract(参考訳): 身体的特性(例えば、形状や材料)からオブジェクトの行動可能性(Affordance reasoning)を推測することは、人間の身体的理解の基礎であり、大規模言語モデル(LLM)にとってますます重要になっている。
しかし、既存のアベイランスベンチマークは、評価設定における明示的なオブジェクトの同一性を明らかにしており、物理特性を推論するのではなく、記憶されたオブジェクト-アフォーマンスマッピングに依存することができる。
このギャップに対処するために、オブジェクトの同一性を露呈することなく、20クエストゲームとして定式化された新しい割当推論ベンチマークであるAffordance20Qを紹介する。
各ゲームにおいて、モデルは、その物理的性質についてイエス/ノーに質問することで、候補セットから隠れたオブジェクトの余裕を識別する。
Affordance20Qは454個のオブジェクトに1,009個のゲームと59個の余裕を持ち、すべて手動でフィルターされ、洗練され、注釈付けされている。
我々は15の最先端のLLMを用いて総合的な実験を行い、人間のパフォーマンスと比較して実質的なギャップ(約20ポイント)を見いだした。
KLベースの情報ゲイン(IG)分析により、ゲームが進行するにつれて、モデルは差別的な質問をしないことが示された。
このギャップを埋めるために,知識ベース(KB)から証拠に基づいた余剰ルールを生成するLLMに基づくパイプラインであるKB-Anchored Rule Injection (KARI)を開発した。
KARI はオープンソース LLM を最大15.2 ポイント改善し、KB の限られた範囲はさらなる増加を妨げる。
私たちはすべてのコードとデータをhttps://github.com/1171-jpg/Affordance20Q.gitでリリースしています。
関連論文リスト
- RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks [10.848408092385192]
本稿では,3つの代表型,複雑性増大の3つの推論レベル,および4つのオブジェクト特性次元の画像を用いた体系的評価フレームワークを提案する。
我々は、このベンチマークをORBITにインスタンス化する。これは、合計1,080のカウントベースの質問と組み合わせた360画像からなるオブジェクト特性のマルチレベル推論VQAベンチマークである。
ゼロショット設定で12の最先端のVLMを用いた実験では、最高のパフォーマンスモデルは40%の精度でしか達成できないため、人間に比べて大きな制限が示される。
論文 参考訳(メタデータ) (2025-08-14T11:28:40Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。
我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。
結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-06-01T08:26:34Z) - Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - NEWTON: Are Large Language Models Capable of Physical Reasoning? [36.631017958809224]
本稿では,大規模言語モデルの物理推論能力を評価するためのレポジトリとベンチマークであるNEWTONを紹介する。
リポジトリは、オブジェクトと属性のペアのコレクションを含み、無限スケールのアセスメントテンプレートを生成する基盤を提供する。
GPT-4のようなLCMはシナリオベースタスクでは強い推論能力を示すが、人間に比べてオブジェクト属性推論では一貫性が低い。
論文 参考訳(メタデータ) (2023-10-10T21:08:51Z) - PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。
我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文 参考訳(メタデータ) (2021-06-07T14:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。