論文の概要: Symbolic and Abstractive Reasoning with Complex Visual Queries
- arxiv url: http://arxiv.org/abs/2606.09195v1
- Date: Mon, 08 Jun 2026 08:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.835312
- Title: Symbolic and Abstractive Reasoning with Complex Visual Queries
- Title(参考訳): 複雑なビジュアルクエリによる記号的・抽象的推論
- Authors: Yichi Zhang, Jingdian Lu, Zhuo Chen, Lingbing Guo, Jun Xu, Wen Zhang, Huajun Chen,
- Abstract要約: CVQ(complex visual query)と呼ばれる新しい抽象データ型を探索する。
CVQは記号的・抽象的推論(英語版)を探索し、MLLMに対する人間のような神経-記号的推論の批判的かつ過小評価された次元である。
本稿では、MLLMを頑健な視覚的推論能力で段階的に装備する2段階のトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.59111649292774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding and reasoning over abstract visual content remains a challenge for current multi-modal large language models (MLLMs). In this paper, we explore a novel abstract data type termed complex visual query (CVQ), designed to probe symbolic and abstractive reasoning, which is a critical yet underexplored dimension of human-like neuro-symbolic reasoning for MLLMs. We present a comprehensive investigation from three perspectives: \textbf{Data $\times$ Paradigm $\times$ Exploration}. Specifically, we propose a scalable pipeline for synthesizing CVQs grounded in large-scale multi-modal knowledge graphs, generating a diverse dataset encompassing 14 distinct query types via systematic combinations of first-order logic operators. We further introduce a two-stage training framework that progressively equips MLLMs with robust visual reasoning capabilities. We conduct extensive experiments to rigorously evaluate MLLMs across multiple dimensions, including reasoning performance on CVQs, as well as cross-task and cross-scenario generalization. We believe our work opens new perspectives and avenues for advancing the reasoning frontiers of MLLMs.
- Abstract(参考訳): 抽象的なビジュアルコンテンツに対する理解と推論は、現在のマルチモーダル大言語モデル(MLLM)にとって依然として課題である。
本稿では,抽象的・抽象的推論を探索するために設計された,新しい抽象データ型複合ビジュアルクエリ(CVQ)について検討する。
ここでは,3つの観点から総合的な調査を行う。
具体的には,大規模マルチモーダル知識グラフ上に構築されたCVQを合成するためのスケーラブルなパイプラインを提案し,一階述語論理演算子の体系的な組み合わせにより,14種類のクエリタイプを含む多様なデータセットを生成する。
さらに,MLLMを頑健な視覚的推論能力で段階的に装備する2段階のトレーニングフレームワークを導入する。
CVQの推論性能やクロスタスク,クロスシナリオの一般化など,MLLMを多次元にわたって厳格に評価するための広範な実験を行った。
我々は,MLLMの理論的フロンティアを推し進めるための新たな視点と道を開いたと信じている。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。