論文の概要: DeceptionX: Explainable Deception Detection with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2606.11385v1
- Date: Tue, 09 Jun 2026 19:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.15246
- Title: DeceptionX: Explainable Deception Detection with Multimodal Large Language Models
- Title(参考訳): DeceptionX: マルチモーダル大言語モデルによる説明可能な誤り検出
- Authors: Jiayu Zhang, Shuo Ye, Jiajian Huang, Yawen Cui, Taorui Wang, Wei Xia, Zeheng Wang, Haowen Tang, Hui Ma, Zitong Yu,
- Abstract要約: 認識検出は、感情コンピューティングと行動分析において、重要かつ非常に困難な課題である。
DeceptionXは,誤り検出のパラダイムをブラックボックス分類から解釈可能なオブザーバ・シンク・サムライズ推論プロセスにシフトする,新しいMLLMフレームワークである。
- 参考スコア(独自算出の注目度): 35.700154303400176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deception detection is a critical and highly challenging task within affective computing and behavioral analysis. Existing deep learning methods typically treat this task as a straightforward classification problem; however, this black-box approach lacks interpretability and fails to capture the complex logical deduction processes utilized by human experts when identifying lies. While Multimodal Large Language Models (MLLMs) have shown potential, applying them effectively requires a bridge between low-level audiovisual cues and high-level logical reasoning. In this paper, we propose DeceptionX, a novel MLLM framework that shifts the paradigm of deception detection from black-box classification to an interpretable Observe-Think-Summarize reasoning process. To address the scarcity of high-quality reasoning data, we first constructed DeceptChain, a high-quality dataset developed through a human-in-the-loop process. This dataset synthesizes fine-grained visual and auditory evidence (such as micro-expressions and vocal tremors) into structured chain-of-thought reasoning data. Furthermore, we propose a three-stage training pipeline and a Discrepancy-Aware Redundancy Elimination~(DARE) strategy for DeceptionX to further enhance the model's generalization capabilities. Extensive experiments demonstrate that DeceptionX not only outperforms existing MLLM baselines and state-of-the-art methods on standard real-world benchmarks but also provides transparent, expert-level reasoning paths, bridging the critical gap between accuracy and interpretability in multimodal deception detection.
- Abstract(参考訳): 認識検出は、感情コンピューティングと行動分析において、重要かつ非常に困難な課題である。
既存のディープラーニング手法は、このタスクを単純な分類問題として扱うが、このブラックボックスアプローチは解釈可能性に欠けており、嘘を特定する際に人間の専門家が利用する複雑な論理的推論プロセスを捉えることができない。
MLLM(Multimodal Large Language Models)は潜在的な可能性を示しているが、それを効果的に適用するには、低レベルな視覚的手がかりと高レベルな論理的推論の橋渡しが必要である。
本稿では, 誤り検出のパラダイムをブラックボックス分類から解釈可能なオブザーバ・シンク・サムライズ推論プロセスにシフトさせる新しいMLLMフレームワークであるDeceptionXを提案する。
高品質な推論データの不足に対処するため、まずDeceptChainを構築した。
このデータセットは、微細な視覚的および聴覚的証拠(マイクロ表現や声動の振れなど)を構造化された連鎖推論データに合成する。
さらに,モデルの一般化機能を強化するために,DeceptionXの3段階トレーニングパイプラインと離散型冗長性排除(DARE)戦略を提案する。
大規模な実験により、DeceptionXは既存のMLLMベースラインや最先端の手法を標準的な実世界のベンチマークで上回るだけでなく、透明で専門家レベルの推論パスを提供し、マルチモーダルな偽造検出において精度と解釈可能性の間に重要なギャップを埋めることを示した。
関連論文リスト
- The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm [1.0742675209112622]
我々は、現在のビジョン・ランゲージ・モデルがマルチモーダルデータを忠実に合成するわけではないと論じる。
モーダリティ変換プロトコル(Modality Translation Protocol)を提案する。
論文 参考訳(メタデータ) (2026-04-22T15:15:32Z) - MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。