論文の概要: MotionHalluc: Diagnosing Kinematic Hallucinations in Fine-Grained Motion Reasoning
- arxiv url: http://arxiv.org/abs/2606.23061v1
- Date: Mon, 22 Jun 2026 09:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:23:23.179128
- Title: MotionHalluc: Diagnosing Kinematic Hallucinations in Fine-Grained Motion Reasoning
- Title(参考訳): MotionHalluc:ファイングラインドモーション推論における運動幻覚の診断
- Authors: Weile Guo, Shenghong He, Danying Mo, Chengdong Xu, Xuexun Liu, Chao Yu,
- Abstract要約: 我々は、ペアビデオ比較において、運動幻覚を評価するためのベンチマークであるMotionHallucを紹介する。
MotionHallucは553の動画対に対して1540のきめ細かい質問からなり、(1)幻覚、(2)帰属幻覚、(3)時間幻覚の3つの中核次元に沿った幻覚を評価する。
以上の結果から, 映像間比較における幻覚の低減には, 明瞭な定量測定による動作推論が重要な要因であることが示唆された。
- 参考スコア(独自算出の注目度): 4.895176146260259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion instruction generation in cross-video comparison aims to produce corrective feedback that describes the differences between a query and a reference motion. However, existing models often generate instructions that exhibit motion hallucinations, failing to reflect actual kinematic differences between paired videos. To systematically investigate these hallucinations, we introduce MotionHalluc, a dedicated benchmark for evaluating motion hallucinations in paired-video comparison. MotionHalluc comprises 1540 fine-grained questions over 553 video pairs, evaluating hallucinations along three core dimensions: (1)directional hallucination, (2)attributional hallucination, and (3)temporal hallucination. Extensive evaluations of state-of-the-art large multimodal models demonstrate high susceptibility to these hallucinations. Furthermore, we provide Perceive-Parse-Verify (PPV) as a training-free measurements extraction and verification baseline that converts candidate instructions into executable measurement queries and supplies kinematic measurements at inference time. Our results show that this simple measurements injection yields an average 10.6% performance gain across models, suggesting that motion reasoning with explicit quantitative measurements is a key factor in reducing hallucinations in cross-video comparison. Our code and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): クロスビデオ比較における動作指示生成は,クエリと参照動作の違いを記述した補正フィードバックを生成することを目的としている。
しかし、既存のモデルは、しばしば動きの幻覚を示す命令を生成し、ペア化されたビデオ間の実際の運動学的差異を反映しない。
これらの幻覚を体系的に研究するために、ペアビデオ比較において運動幻覚を評価するための専用のベンチマークであるMotionHallucを紹介する。
MotionHallucは553の動画対に対して1540のきめ細かい質問からなり、(1)方向性幻覚、(2)属性幻覚、(3)時間幻覚の3つの中核次元に沿った幻覚を評価する。
最先端の大規模マルチモーダルモデルの大規模な評価は、これらの幻覚に対する高い感受性を示す。
さらに,トレーニング不要な計測基準としてPerceive-Parse-Verify(PPV)を提供し,候補命令を実行可能な測定クエリに変換し,推論時にキネマティックな測定を行う。
以上の結果から, この簡易な計測法は, モデル間で平均10.6%の性能向上をもたらすことが示唆され, 映像間比較における幻覚の低減に重要な要因であることが示唆された。
私たちのコードとデータセットは、受け入れ次第公開されます。
関連論文リスト
- Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models [44.84227796501077]
ビデオマルチモーダル大言語モデル(VLLM)における孤立幻覚と構成幻覚の両方を評価するためのベンチマークであるOmniVCHallを紹介する。
3方向キャリブレーション機構を備えたコントラストデコーディングフレームワークであるTriCDを提案する。
実験の結果,TriCDは2つの代表的なバックボーンで連続的に性能を向上し,平均精度が10%以上向上した。
論文 参考訳(メタデータ) (2026-01-31T06:50:43Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding [1.1834200163382398]
ビデオ理解のためにMLLMの幻覚を調べるために設計された最大のベンチマークであるVidHallucを紹介する。
VidHallucは、(1)行動、(2)時間的シーケンス、(3)シーン遷移の3つの重要な次元にわたる幻覚を評価する。
DINO-HEALは,DINOv2からの空間塩分を推論時の視覚的特徴に組み込むことで幻覚を軽減できる訓練不要な方法である。
論文 参考訳(メタデータ) (2024-12-04T22:03:19Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。