論文の概要: Context-Aware Multimodal Claim Verification in Spoken Dialogues
- arxiv url: http://arxiv.org/abs/2606.11420v1
- Date: Tue, 09 Jun 2026 20:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.16794
- Title: Context-Aware Multimodal Claim Verification in Spoken Dialogues
- Title(参考訳): 音声対話における文脈認識型マルチモーダルクレーム検証
- Authors: Chaewan Chun, Delvin Ce Zhang, Dongwon Lee,
- Abstract要約: Spoken misinformationは会話を通じて構築され、信頼度はクレームのフレーム化、強化、左のアングルングの仕方から生まれる。
我々は,3,368件のチェック価値のあるクレームと約10時間の音声を含む1,000の2話者対話を含む音声クレーム検証のための新しいベンチマークMAD2を紹介する。
以前のコンテキストのみを使用すると、オフラインのパフォーマンスにマッチし、ライブモデレーション設定をサポートし、オーディオは、追加のコンテキストによって書き起こしベースのモデルが不安定になったときに、ほとんど寄与する。
- 参考スコア(独自算出の注目度): 12.111195479896557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every day, millions absorb claims from podcasts and streams that no fact-checker ever sees. Spoken misinformation is built through conversation, where credibility comes not from facts alone but from how claims are framed, reinforced, or left unchallenged across turns. Yet fact-checking has focused on isolated text, leaving dialogue audio under-studied. We introduce MAD2, a new Multi-turn Audio Dialogues benchmark for spoken claim verification, containing 1,000 two-speaker dialogues with 3,368 check-worthy claims and approximately 10 hours of audio, and propose calibrated multimodal fusion of a context-aware audio encoder and a dialogue-aware text model. Across settings, adding dialogue context improves verification, but the gains depend on scenario type. Using only preceding context often matches offline performance, supporting live-moderation settings, and audio contributes most when transcript-based models are destabilized by additional context. Overall, conversational structure matters more for verification than misinformation framing.
- Abstract(参考訳): 毎日、何百万人もの人がポッドキャストやストリームのクレームを吸収している。
会話では、事実だけでなく、クレームのフレーム化、強化、あるいは左のアンタリングの仕方からも信頼度が生まれる。
しかし、事実チェックは孤立したテキストに焦点を合わせており、対話音声は未調査のままである。
音声クレーム検証のための新しいマルチターン音声対話ベンチマークであるMAD2を導入し,3,368件のチェックアワークレームと約10時間のオーディオを含む1,000の2話者対話と,文脈対応オーディオエンコーダと対話対応テキストモデルの校正マルチモーダル融合を提案する。
設定全体において、対話コンテキストの追加は検証を改善するが、利得はシナリオタイプに依存する。
以前のコンテキストのみを使用すると、オフラインのパフォーマンスにマッチし、ライブモデレーション設定をサポートし、オーディオは、追加のコンテキストによって書き起こしベースのモデルが不安定になったときに、ほとんど寄与する。
全体として、会話の構造は誤情報フレーミングよりも検証に重要である。
関連論文リスト
- When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms [12.111195479896557]
このポジションペーパーは、モーダル性やプラットフォームを越えてエビデンスを合成し、データセットや手法を調べ、既存のパイプラインがオーディオで失敗する理由を強調する。
ファクトチェックを進めるには、音声の音声と会話の現実に関する検証パイプラインを再考する必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2026-04-18T01:25:02Z) - AV-Dialog: Spoken Dialogue Models with Audio-Visual Input [16.289812372606168]
AV-Dialogは、音声と視覚の両方を使ってターゲット話者を追跡し、ターンテイクを予測し、一貫性のある応答を生成する最初のフレームワークである。
実験により、AV-Dialogは干渉下での音声のみのモデルよりも優れ、転写エラーの低減、ターンテイク予測の改善、人格の対話品質の向上が示されている。
これらの結果から,実環境,騒音環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境
論文 参考訳(メタデータ) (2025-11-14T09:56:26Z) - A Cocktail-Party Benchmark: Multi-Modal dataset and Comparative Evaluation Results [62.01871490859886]
第9回CHiMEチャレンジにおいて,マルチモーダルコンテキスト認識(MCoRec)の課題を紹介した。
MCoRecは、録音が説明のない、カジュアルなグループチャットに集中する、自然なマルチパーティの会話をキャプチャする。
このタスクでは、各話者のスピーチを共同で翻訳し、音声・視覚録音から各話者の会話にまとめることにより、「誰がいつ、何、誰と話をするのか?」という質問に答えるシステムが必要である。
論文 参考訳(メタデータ) (2025-10-27T12:36:43Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - Detecting Check-Worthy Claims in Political Debates, Speeches, and
Interviews Using Audio Data [37.62931315840986]
米国における過去の政治討論から48時間のスピーチを含む、新しいマルチモーダルデータセット(テキストと音声)を作成しました。
実験により、複数話者の場合、音声モダリティの追加は、テキストモダリティ単独の使用よりも大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-24T12:09:42Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。