論文の概要: A Practical Evaluation Method for Long-Form Simultaneous Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2606.15059v1
- Date: Sat, 13 Jun 2026 02:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.753339
- Title: A Practical Evaluation Method for Long-Form Simultaneous Speech-to-Speech Translation
- Title(参考訳): 音声-音声同時翻訳の実践的評価法
- Authors: Yulin Xue, Siqi Ouyang, Lei Li,
- Abstract要約: シマルS2ST (SimulS2ST) はリアルタイム言語間通信を実現する。
長文SimulS2STの実用的評価法を提案する。
- 参考スコア(独自算出の注目度): 9.807543197382016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech-to-speech translation (SimulS2ST) enables real-time cross-lingual communication, but existing evaluation has focused largely on short or pre-segmented speech rather than long-form, continuous input. Prior approaches are difficult to reproduce and make assumptions that do not hold for end-to-end systems. We present a practical evaluation method for long-form SimulS2ST. Given source speech, pre-segmented source transcripts, and reference translations, we run automatic speech recognition (ASR) and forced alignment on the generated target speech to recover token-level timestamps, then apply a sentence-embedding-based aligner to match the target text to its corresponding source sentences. This enables sentence-level computation of latency and quality metrics, including YAAL and xCOMET, which are then aggregated into final system-level scores. Experiments on representative SimulS2ST systems show that the method is effective in practice and reveal that current systems suffer from substantial latency accumulation on long speech.
- Abstract(参考訳): 同時音声音声合成(SimulS2ST)は、リアルタイムな言語間通信を可能にするが、既存の評価は、長文の連続的な入力ではなく、短文または前文の音声に重点を置いている。
従来のアプローチでは、エンド・ツー・エンドのシステムには当てはまらない仮定を再現し、仮定することは困難である。
長文SimulS2STの実用的評価法を提案する。
ソース音声,事前分類されたソーステキスト,参照翻訳が与えられた場合,自動音声認識(ASR)を行い,生成したターゲット音声に強制的にアライメントを行い,トークンレベルのタイムスタンプを復元し,文埋め込みベースのアライメント装置を適用して,対象テキストと対応するソース文とを一致させる。
これにより、YAALやxCOMETなど、レイテンシと品質のメトリクスの文レベルの計算が可能になり、最終的なシステムレベルスコアに集約される。
代表型SimulS2STシステムにおける実験により,本手法は実効性を示し,従来のシステムでは長い音声の遅延蓄積にかなり悩まされていることが明らかとなった。
関連論文リスト
- Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages [3.5238606794194816]
ソーシャルメディアが音声による対話へとシフトするにつれ、虐待的音声検出の重要性が高まっている。
コントラスト言語-オーディオ事前学習が、音声から直接虐待的音声検出を支援できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-10T08:23:03Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models [14.060679420379516]
エンドツーエンドの音声大言語モデル(LLM)は、音声トークンを直接処理し、生成するテキストベースモデルの能力を拡張している。
これはしばしばテキスト入力と比較して推論と生成性能が低下する。
音声LLMの性能劣化を定量化するベンチマークであるS2SBenchを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:42:20Z) - OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。