Fugu-MT 論文翻訳(概要): MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

論文の概要: MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

arxiv url: http://arxiv.org/abs/2606.16731v2
Date: Thu, 18 Jun 2026 23:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-23 13:41:30.828692
Title: MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild
Title（参考訳）: MuVAP:マルチモーダルなマルチパーティ音声活動予測
Authors: Haotian Qi, Gabriel Skantze,
Abstract要約: 顔のトラックに音響予測を接地することで音声活動予測を拡張する因果的枠組みである MuVAP を導入する。複数の話者をモデル化する複雑さに対処するため,N-話者相互作用を固定電流と次のフロアホルダー状態にマッピングするロール相対射影法を提案する。評価の結果, MuVAP はShift-Hold および Next-Speaker 予測タスクにおいて高いベースラインを達成している。
参考スコア（独自算出の注目度）: 9.226832581510598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current multiparty turn-taking models often rely on complex microphone arrays or multi-camera setups, limiting their applicability in human-robot interaction scenarios. We introduce MuVAP, a causal multimodal framework that extends Voice Activity Projection by grounding acoustic predictions in face tracks, enabling speaker-aware turn-taking predictions from a monaural audio stream and a single camera view. To address the combinatorial complexity of modeling multiple speakers, we propose Role-Relative Projection, which maps any N-speaker interaction onto a fixed current versus next floor-holder state. Because existing audiovisual datasets contain disruptive editing cuts that break causal tracking, we introduce the Audio-Visual Conversation Corpus, a 31-hour dataset of unedited, single-camera multiparty conversations. Evaluations demonstrate that MuVAP outperforms strong baselines on Shift-Hold and next-speaker prediction tasks across two- and three-speaker settings.
Abstract（参考訳）: 現在のマルチパーティのターンテイクモデルは、複雑なマイクロフォンアレイやマルチカメラのセットアップに依存しており、人間とロボットの相互作用シナリオにおける適用性を制限している。音声音声ストリームと単一カメラビューからの話者認識型ターンテイク予測を実現するために,音声活動予測を拡張した因果的マルチモーダルフレームワークであるMuVAPを紹介する。複数の話者をモデル化する際の組合せ複雑性に対処するため,N-話者相互作用を固定電流と次のフロアホルダー状態にマッピングするロール相対射影法を提案する。既存のオーディオヴィジュアルデータセットには因果追跡を破る破壊的な編集カットが含まれているため、31時間の未編集でシングルカメラの多人数会話のデータセットであるAudio-Visual Conversation Corpusを導入する。 MuVAPは、シフトホールドと次のスピーカー予測タスクにおいて、2と3のスピーカー設定で強いベースラインを上回ります。

関連論文リスト

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction [7.775050285048427]
音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
論文参考訳（メタデータ） (2026-04-21T08:24:55Z)
Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR [18.90091826363701]
Speaker-Reasonerはエージェント型マルチターン時間的推論を備えたエンドツーエンド音声LLMである。 Speaker-Reasonerは、AliMeetingとAISHELL-4データセットの強いベースラインよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2026-04-03T14:52:20Z)
AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文参考訳（メタデータ） (2025-12-18T07:01:47Z)
MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。 10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文参考訳（メタデータ） (2025-07-14T23:20:42Z)
Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。 KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。 UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T00:47:29Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文参考訳（メタデータ） (2021-01-11T02:57:25Z)
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADは各時間フレーム上の各話者の活動を直接予測する。 CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2020-05-14T21:24:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。