論文の概要: Catching Lies Without Sending the Video: Privacy-Preserving Multimodal Deception Detection
- arxiv url: http://arxiv.org/abs/2606.22699v1
- Date: Sun, 21 Jun 2026 22:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:27:01.371641
- Title: Catching Lies Without Sending the Video: Privacy-Preserving Multimodal Deception Detection
- Title(参考訳): 動画を送信せずに嘘をつく:プライバシー保護によるマルチモーダル・デセプション検出
- Authors: Nikita Sharma, Pranav Sara, Karan Singla,
- Abstract要約: マルチモーダルモデルは 証言ビデオから 嘘をついているかどうかを推測できる
ヘビーメディアがまったく必要かどうかを問う。
消化をフロンティアLSMに渡すと、AUC 0.755に到達し、Claude Opus 4.8は7.8倍の少ない入力トークンを持つ。
- 参考スコア(独自算出の注目度): 0.8283940114367678
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Frontier multimodal models can guess whether a person is lying from a testimony video. To do so, they stream that raw face and voice to a third-party model. We ask whether the heavy media is needed at all. On the Real-life Trial Deception dataset, Whissle on-device speech and vision stack extracts a compact digest: transcript, emotion, age, gender, intent distributions, a deception intent filter, fluency and rhythm, per-frame facial behaviour, and prosody. Under speaker-independent evaluation, we report three findings. A small classifier on this digest reaches AUC 0.741, matching Gemini 2.5 Pro on full video. Handing the digest to a frontier LLM reaches AUC 0.755 with Claude Opus 4.8 at 7.8X fewer input tokens, with no media leaving the device. The reported 75% accuracy is a speaker-leakage artifact. We release code and experiments.
- Abstract(参考訳): 最前線のマルチモーダルモデルは、人が証言ビデオから嘘をついているかどうかを推測することができる。
そのために、その生の顔と声をサードパーティのモデルにストリーミングする。
ヘビーメディアがまったく必要かどうかを問う。
Real-life Trial Deceptionデータセットでは、Whissleのオンデバイス音声とビジョンスタックが、トランスクリプト、感情、年齢、性別、意図分布、偽装意図フィルタ、流感とリズム、フレームごとの顔の振る舞い、韻律といった、コンパクトなダイジェストを抽出する。
話者非依存評価では,3つの所見が報告された。
このダイジェストの小さな分類器はAUC 0.741に達し、全ビデオでGemini 2.5 Proと一致する。
消化液をフロンティアLSMに渡すとAUC 0.755に到達し、Claude Opus 4.8は7.8倍の少ない入力トークンを持つ。
報告された75%の精度は、話者推論の成果物である。
コードと実験をリリースします。
関連論文リスト
- Detecting Deception, Not Deepfakes: Why Media Forensics Needs Social Theories [5.5150683027141945]
ディープフェイク検出は、音声またはビデオクリップが与えられた場合に、それが本物か合成的であるかを判断する分類タスクとしてフレーム化されている。
合成メディアのより優れた分類器は、特にビデオ通話や音声通話における偽造のようなインタラクティブなディープフェイクにおいて、この問題を解決できないと我々は主張する。
人工物に基づく検出が依存する5つの仮定を特定し、生成モデルの改善に伴って5つすべてが侵食されていることを示す。
論文 参考訳(メタデータ) (2026-05-09T15:46:31Z) - AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech [56.08149157180447]
本稿では,大規模マルチモーダルモデルの音声キャプション機能を評価するベンチマークであるAudioCapBenchを紹介する。
我々は、参照ベースのメトリクス(METEOR、BLEU、ROUGE-L)とLLM-as-Judgeフレームワークを使用して、2つのプロバイダ(OpenAI、Google Gemini)にわたる13のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-27T03:33:37Z) - Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans? [48.99013330282699]
Video Reality Test(ビデオ・リアリティ・テスト)は、ASMRがオープンソース化したビデオベンチマークスイートで、音声と視覚の密結合の下で知覚的リアリズムをテストする。
このベンチマークは、慎重にキュレートされた実際のASMRビデオに基づいて構築され、オブジェクト、アクション、バックグラウンドの多様性と細かなアクションオブジェクトのインタラクションをターゲットとしている。
論文 参考訳(メタデータ) (2025-12-15T12:41:23Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。