Fugu-MT 論文翻訳(概要): Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation

論文の概要: Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation

arxiv url: http://arxiv.org/abs/2606.16568v1
Date: Mon, 15 Jun 2026 11:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.476039
Title: Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation
Title（参考訳）: Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation
Authors: Rutherford A. Patamia, Ming Liu, Wei Luo, Favour Ekong, Akan Cosgun,
Abstract要約: 本稿では,VoxConverseデータセットを用いたマルチパーティのターンテイクについて検討する。高速トリガーが音声をスキャンし、候補の終了時間を提案する。軽量検証器は、その時点でのみ動作して決定する。 textscHold または textscShift は、次のスピーカー予測をサポートする。
参考スコア（独自算出の注目度）: 8.114877320606107
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reliable turn-taking is essential for spoken dialogue systems. However, most existing methods are designed for two-speaker interaction and struggle with realistic multiparty audio containing overlap and rapid speaker changes. We study multiparty turn-taking on the VoxConverse dataset and propose an audio-only two-stage pipeline that separates when to trigger a turn boundary from whether the floor is actually transferring. A fast trigger scans the audio and proposes candidate end-of-turn times, while a lightweight verifier runs only at those times to decide \textsc{Hold} or \textsc{Shift} and support next-speaker prediction. We report results in the full multiparty setting and a controlled dyadic top-2 projection for comparability. We also investigate diffusion-based, label-preserving background-audio mixing as a data augmentation strategy. Results show improved shift detection over a baseline, with further improvements from diffusion augmentation.
Abstract（参考訳）: 音声対話システムには信頼性の高いターンテイクが不可欠である。しかし、既存のほとんどの手法は、双方向の対話のために設計されており、重なり合いや急激な話者変化を含む現実的なマルチパーティオーディオに苦慮している。本稿では,VoxConverseデータセット上でのマルチパーティのターンテイクについて検討し,床が実際に移動しているかどうかからターンバウンダリをトリガするタイミングを分離するオーディオのみの2段階パイプラインを提案する。高速トリガーは音声をスキャンし、候補の終了時刻を提案するが、軽量検証器は当時のみ実行し、 \textsc{Hold} または \textsc{Shift} を判定し、次の話者予測をサポートする。本報告では, 完全マルチパーティ設定と, 可視性を考慮した制御されたDyadic Top-2プロジェクションについて報告する。また,データ拡張戦略として,拡散に基づくラベル保存バックグラウンドオーディオミキシングについても検討した。その結果, ベースライン上でのシフト検出が向上し, 拡散増大による改善が見られた。

関連論文リスト

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction [7.775050285048427]
音声アシスタントは人間のような会話システムに向けて人工的な伝播を駆動しています。音声活動検出(VAD)やターンテイク検出(TD)といったフロントエンドコンポーネントは、音声アシスタントにとって不可欠である。本報告では, フルグレッシブ音声システムに適した初の統合音声フロントエンド LLM (UAF) を提案する。
論文参考訳（メタデータ） (2026-04-21T08:24:55Z)
Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文参考訳（メタデータ） (2025-10-02T14:33:05Z)
Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文参考訳（メタデータ） (2023-10-17T16:22:18Z)
TranssionADD: A multi-frame reinforcement based sequence tagging model for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文参考訳（メタデータ） (2023-06-27T05:18:25Z)
In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2022-10-26T13:00:29Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
The Volcspeech system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文参考訳（メタデータ） (2022-02-09T03:38:39Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。