Fugu-MT 論文翻訳(概要): NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

論文の概要: NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

arxiv url: http://arxiv.org/abs/2606.13121v1
Date: Thu, 11 Jun 2026 09:49:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.709728
Title: NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation
Title（参考訳）: Natural Flow: 音声-音声同時翻訳における自然な音声流に対する破壊的ポーズの低減
Authors: Dongwook Lee, Youngho Cho, Sangkwon Park, Heeseung Kim, Sungroh Yoon,
Abstract要約: 音声から音声への同時翻訳は、レイテンシを最小化し、ほぼリアルタイムなコミュニケーションを実現することを目的としている。しかし、低レイテンシの過剰な追求は、しばしば断片化されたチャンクワイズ音声をもたらす。本稿では,同時翻訳の低レイテンシメリットと連続翻訳の自然な流れとの間のスイートスポットを発見するために,流速対応の最適化フレームワークを提案する。
参考スコア（独自算出の注目度）: 47.343134511282834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Simultaneous speech-to-speech translation aims to enable near-real-time communication by minimizing latency, offering a compelling, real-time alternative to the high latency of consecutive translation. However, the excessive pursuit of low latency often results in fragmented chunk-wise speech. Consequently, listeners are subjected to an unnatural acoustic flow punctuated by frequent pauses, which could increase their cognitive load. To bridge this gap, we introduce a fluency-aware optimization framework designed to discover the sweet spot between the low-latency benefits of simultaneous translation and the natural flow of consecutive translation. Our framework minimizes inter-chunk silences by leveraging model-internal signals, including linguistic diversity and induced temporal variability in speech durations. Experiments on short- and long-form benchmarks show that our framework produces natural speech flow while maintaining competitive latency and translation quality.
Abstract（参考訳）: 音声から音声への同時翻訳は、レイテンシを最小化し、連続翻訳の高レイテンシに対する魅力的なリアルタイム代替手段を提供することによって、ほぼリアルタイム通信を可能にすることを目的としている。しかし、低レイテンシの過剰な追求は、しばしば断片化されたチャンクワイズ音声をもたらす。その結果、聴取者は、頻繁な停止によって不自然な音波流に曝され、認知負荷が増大する可能性がある。このギャップを埋めるために、同時翻訳の低レイテンシ利点と連続翻訳の自然な流れの間のスイートスポットを見つけるために設計された、流速対応の最適化フレームワークを導入する。本フレームワークは,言語的多様性や発話時間における時間的変動など,モデル内信号を活用することで,チャンク間の沈黙を最小化する。短時間および長期のベンチマーク実験により、我々のフレームワークは、競合するレイテンシと翻訳品質を維持しながら、自然な音声の流れを生成できることが示されている。

関連論文リスト

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文参考訳（メタデータ） (2025-05-27T08:43:28Z)
High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。 Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文参考訳（メタデータ） (2025-02-05T17:18:55Z)
What does it take to get state of the art in simultaneous speech-to-speech translation? [0.0]
本研究では,同時音声合成モデルの性能評価において観測される遅延特性について検討する。本稿では,レイテンシのスパイクを最小限に抑え,全体的な性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-09-02T06:04:07Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
Fluent and Low-latency Simultaneous Speech-to-Speech Translation with Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文参考訳（メタデータ） (2020-10-20T06:02:15Z)
Low Latency ASR for Simultaneous Speech Translation [27.213294097841853]
我々は,音声認識と音声翻訳モジュールの両コンポーネントのレイテンシを低減するために,いくつかの手法を開発した。ストリーム復号と動的出力更新のためのプロトコルを用いて,ランオン復号とストリーム復号時の安定部分仮説を同定する手法を組み合わせた。この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sまで性能を犠牲にすることなく更新されることはない。
論文参考訳（メタデータ） (2020-03-22T13:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。