論文の概要: Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos
- arxiv url: http://arxiv.org/abs/2606.11953v1
- Date: Wed, 10 Jun 2026 11:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.431562
- Title: Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos
- Title(参考訳): マルチモーダルクイズをデコードする動画
- Authors: Junyu Lu, Deyi Ji, Liqun Liu, Xiaokun Zhang, Youlin Wu, Roy Ka-Wei Lee, Peng Shu, Huan Yu, Jie Jiang, Bo Xu, Liang Yang, Hongfei Lin,
- Abstract要約: 我々は、モデルが文脈的合理性を提供できるように、説明可能なヘイトフルなビデオ検出を実現することを目指している。
このアプローチは、ビデオ内容の理解と意思決定プロセスの説明可能性を包括的に強化することができる。
本稿では,情報拡張・推論拡張(IARE)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.13788871461312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hateful videos have become prevalent on online platforms, highlighting an urgent need for effective detection. However, existing studies primarily focus on binary classification and fail to provide contextual rationales that reveal the implicit meanings behind these judgments, significantly undermining model explainability. To fill this gap, we aim to achieve explainable hateful video detection, enabling models to provide contextual rationales that integrate relevant evidence and logical reasoning alongside decisions. This approach can comprehensively enhance the understanding of video content and the explainability of the decision-making process. We first introduce two datasets, Ex-HateMM and Ex-ImpliHateVid, for explainable hateful video detection. Each dataset provides fine-grained annotations of multimodal harmful elements, along with contextual rationales. We then propose an Information Augmentation and Reasoning Enhancement (IARE) framework designed for explainable detection. The framework employs an information augmentation phase that leverages the multimodal chain-of-thought to integrate harmful elements, thereby enriching rationale evidence. Additionally, IARE incorporates a reasoning enhancement phase, in which Direct Preference Optimization guides the model toward correct reasoning paths and away from incorrect ones, thereby improving the logical coherence of its justifications. We conduct extensive experiments on the two datasets, comparing multiple baselines with our proposed IARE framework. The results demonstrate that IARE achieves state-of-the-art performance while also generating accurate rationales.
- Abstract(参考訳): オンラインプラットフォームでは、憎しみのあるビデオが広まり、効果的な検出の緊急の必要性が浮かび上がっている。
しかし、既存の研究は主に二項分類に焦点を当てており、これらの判断の背後にある暗黙的な意味を明らかにする文脈的理性を提供していないため、モデル説明可能性を大幅に損なう。
このギャップを埋めるために、我々は、モデルが関連するエビデンスと論理的推論を同時に統合する文脈的合理性を提供する、説明可能なヘイトフルなビデオ検出を実現することを目指している。
このアプローチは、ビデオ内容の理解と意思決定プロセスの説明可能性を包括的に強化することができる。
まず2つのデータセット、Ex-HateMMとEx-ImpliHateVidを導入する。
各データセットは、コンテキスト的合理性とともに、マルチモーダル有害な要素のきめ細かいアノテーションを提供する。
次に、説明可能な検出を目的とした情報拡張・推論拡張(IARE)フレームワークを提案する。
このフレームワークは情報強化フェーズを採用しており、多モーダル・チェーン・オブ・シントを利用して有害な要素を統合することにより、合理的な証拠を豊かにする。
さらに、IAREには推論強化フェーズが組み込まれており、直接推論最適化は正しい推論経路へ誘導し、正しい推論経路から離れて、正しい推論経路へ誘導することで、その正当化の論理的一貫性を向上させる。
提案したIAREフレームワークと複数のベースラインを比較し,2つのデータセットについて広範な実験を行った。
その結果,IAREは最先端の性能を達成しつつ,正確な合理性も生み出すことがわかった。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection [6.225860651499494]
多モーダル偽ニュース検出は、敵対的誤報の軽減に不可欠である。
進化的,エビデンス駆動推論パラダイムに基づくフレームワークであるDIVER(Dynamic Iterative Visual Evidence Reasoning)を提案する。
Weibo、Weibo21、GossipCopの実験では、DIVERは最先端のベースラインを平均2.72%上回っている。
論文 参考訳(メタデータ) (2026-01-12T04:01:33Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。
我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。
我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文 参考訳(メタデータ) (2025-08-07T07:36:53Z) - Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment [29.18869359348712]
私たちはDVidE(Defeasible Video Entailment)を紹介します。
DVidEでは、ビデオ前提とテキスト仮説が考慮され、新しい更新が仮説を強化または弱めるかどうかをモデルが判断しなければならない。
生成タスクにおいて、ASR出力とLLM(Large Language Model)を組み合わせ、一貫性のある文脈に関連のある更新を生成するフレームワークを開発する。
論文 参考訳(メタデータ) (2025-06-27T16:51:15Z) - Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning [54.56271651170667]
既存の方法は、しばしば固いテンプレートに過度に適合し、偽りのコンテンツに対する深い推論を欠いている。
FakeVVは10万以上のビデオテキスト対と微粒で解釈可能なアノテーションからなる大規模ベンチマークである。
また、深い推論と協調ルールに基づく強化学習を統合するフレームワークであるFact-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T16:05:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。