論文の概要: An Evaluation Framework for Text-to-Speech Voice Reconstruction
- arxiv url: http://arxiv.org/abs/2606.21343v1
- Date: Fri, 19 Jun 2026 11:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:11:10.563499
- Title: An Evaluation Framework for Text-to-Speech Voice Reconstruction
- Title(参考訳): テキスト音声合成のための評価フレームワーク
- Authors: Ariadna Sanchez, Christoph Minixhofer, Korin Richmond, Ondrej Klejch, Peter Bell, Simon King,
- Abstract要約: 主観的・客観的な要素を持つ評価フレームワークを提案する。
我々は,BWS(Best Worst Scaling)と状況フレーミングを用いて,認識の可知性と話者識別性を評価した。
提案手法は,音声再構成を評価するための信頼性とタスクアライメントのアプローチを提供する。
- 参考スコア(独自算出の注目度): 24.070995987704148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice reconstruction using Text-to-Speech (TTS) offers a communication method for people with speech disorders, which aims to retain their speaker identity while improving intelligibility. Previous work generally relies on Mean Opinion Score (MOS) to evaluate naturalness and speaker similarity, but this has limited sensitivity and reliability. We propose an evaluation framework with subjective and objective components. Subjectively, we evaluate perceived intelligibility and speaker identity using Best Worst Scaling (BWS) with situational framing. Objectively, we demonstrate that standard measures fail to predict reconstruction success for highly unintelligible speakers, so we introduce a novel dual-reference distributional measure to assess the trade-off between intelligibility and speaker identity. By evaluating the output of 17 zero-shot TTS systems for 193 speakers, we show that our framework provides a reliable and task-aligned approach for assessing voice reconstruction.
- Abstract(参考訳): Text-to-Speech (TTS) を用いた音声再建は, 話者のアイデンティティを維持しつつ, 知性を向上させることを目的とした, 言語障害のある人々のためのコミュニケーション手法を提供する。
従来の研究は、自然さと話者の類似性を評価するために平均オピニオンスコア(MOS)に依存していたが、感度と信頼性は限られていた。
主観的・客観的な要素を持つ評価フレームワークを提案する。
BWS(Best Worst Scaling, ベストワーストスケーリング)と状況フレーミング(コンテクストフレーミング)を用いて, 認識可能性と話者同一性を評価した。
客観的に,高信頼度話者の再建成功を予測できないことを実証するため,信頼度と話者識別のトレードオフを評価するために,新しい二重参照分布尺度を導入する。
193話者を対象とした17のゼロショットTSシステムの出力を評価することにより、我々のフレームワークは、音声再構成を評価するための信頼性とタスク整合性を備えたアプローチを提供することを示した。
関連論文リスト
- Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech [42.343691065979215]
Zero-shot Text-to-Speech (TTS)音声クローンは、深刻なプライバシーリスクを引き起こす。
我々はこのタスクを音声生成話者中毒(SGSP)として定式化する。
我々は、訓練されたモデルを変更して、他の話者の実用性を維持しながら、特定のアイデンティティの生成を防止する。
論文 参考訳(メタデータ) (2026-03-08T09:29:55Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。