論文の概要: ChronoPhyBench: Do MLLMs Truly Understand the World or Merely Exploit Language Priors?
- arxiv url: http://arxiv.org/abs/2606.07962v1
- Date: Sat, 06 Jun 2026 03:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.584775
- Title: ChronoPhyBench: Do MLLMs Truly Understand the World or Merely Exploit Language Priors?
- Title(参考訳): ChronoPhyBench:MLLMは真に世界を理解しているか、それとも単に爆発的な言語優先か?
- Authors: Bin Zhu, Yanhao Jia, Kexin Zhao, Jie Wang, Munan Ning, Hao Li, Yuwei Niu, Tanqing Sun, Huangchong Yan, Mingjun Pan, Xinyi Wu, Qishen Yin, Yunyang Ge, Shuai Zhao, Li Yuan,
- Abstract要約: MLLM(Multimodal Large Language Models)は、オープンワールドの推論と理解において、卓越した能力を示している。
これらのモデルが、物理的に基底を持つ推論チェーンを構築するために、真にクロスモーダル情報を合成するかどうかは不明である。
ベンチマーククロノPhyBenchのマルチモーダルな物理力学推論を提案する。
- 参考スコア(独自算出の注目度): 31.44012988967088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in open-world reasoning and understanding. However, a critical ambiguity persists: it remains unclear whether these models genuinely synthesize cross-modal information to construct physically grounded reasoning chains, or if they merely exploit strong language priors to mask single-modality reliance, thereby hallucinating advanced multimodal capabilities. Motivated by this, and to rigorously mitigate language modality bias and shortcuts, we propose a novel multimodal Chrono}logical Physical Dynamics Reasoning Benchmark ChronoPhyBench, which unifies next state prediction with Visual Question Answering (VQA) paradigms by conditioning on historical video context and textual captions to enforce models to deduce subsequent physical states through both single image selection and the inherently more complex task of multiple frame chronological sorting. Concurrently, we construct a large-scale multimodal reasoning dataset curated using the ChronoPhyBench criteria, comprising over 10,000 long-form videos paired with meticulously annotated captions, totaling 5M tokens. Our experimental evaluations reveal a stark contrast to conclusions drawn by previous benchmarks. The capacity of current open-source models to perform physically grounded multimodal reasoning remains in its infancy. Ultimately, this work seeks to systematically stress-test the reasoning capabilities of multimodal models, quantify hallucination rates, and advance the development of Physical AI, thereby providing the community with a robust and transparent evaluation framework toward Artificial General Intelligence (AGI).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、オープンワールドの推論と理解において顕著な熟練性を示している。
しかし、重要な曖昧さは残る:これらのモデルは、物理的に基底付けられた推論チェーンを構築するために、真にクロスモーダル情報を合成するかどうか、あるいは単にシングルモーダル依存を隠蔽するために強い言語を利用するだけなのか、それによって高度なマルチモーダル能力を幻覚させるのかは、まだ不明である。
そこで本研究では,言語モダリティバイアスとショートカットを厳格に緩和するために,視覚的質問応答(VQA)パラダイムと次の状態予測を統一する,マルチモーダルな物理力学推論 Benchmark ChronoPhyBenchを提案する。
同時に,ChronoPhyBench基準を用いた大規模マルチモーダル推論データセットを構築した。
実験により,従来のベンチマークによる結論とは対照的な結果が得られた。
現在のオープンソースモデルが、物理的に基盤付けられたマルチモーダル推論を行う能力は、その初期段階にある。
この研究は最終的に、マルチモーダルモデルの推論能力を体系的にストレステストし、幻覚率を定量化し、物理的AIの開発を進めることを目的としており、それによって、人工知能(AGI)に対する堅牢で透明な評価フレームワークをコミュニティに提供する。
関連論文リスト
- The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm [1.0742675209112622]
我々は、現在のビジョン・ランゲージ・モデルがマルチモーダルデータを忠実に合成するわけではないと論じる。
モーダリティ変換プロトコル(Modality Translation Protocol)を提案する。
論文 参考訳(メタデータ) (2026-04-22T15:15:32Z) - Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework [21.10693332367192]
マルチモーダル時間汎用人工知能モデルであるAllSparkを提案する。
私たちのモデルは10の異なるモダリティを統一されたフレームワークに統合します。
実験により、AllSparkは言語を組み込むことで、数ショットの分類タスクで優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-31T17:21:02Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。