論文の概要: Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations
- arxiv url: http://arxiv.org/abs/2606.19951v1
- Date: Thu, 18 Jun 2026 08:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.745608
- Title: Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations
- Title(参考訳): 音響・韻律的摂動による音声品質評価における人間モデル差の検討
- Authors: Masato Takagi, Masaya Kawamura, Reo Shimizu, Yuma Shirahata,
- Abstract要約: 平均世論スコア(MOS)予測モデルは、テキスト音声研究におけるプロキシ指標として広く利用されている。
本研究では,音の劣化,韻律的誤り,ピッチや発話速度などの話者固有の特徴の操作など,音声に対する制御的摂動を通してこれを考察する。
その結果、ほとんどのモデルは音響劣化をよく追跡するが、いずれも主観的スコアの低下にもかかわらず韻律的誤差に敏感であることがわかった。
話者特性について、モデルは二重解離を示す:強い平均基本周波数(F0)バイアスは人間の評価にはないが、発話速度に敏感であり、人間に気付かれるF0変動である。
- 参考スコア(独自算出の注目度): 6.951409243358033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean opinion score (MOS) prediction models are widely used as proxy metrics in text-to-speech (TTS) research, yet their ability to capture quality differences beyond acoustic fidelity remains unclear. We investigate this via controlled perturbations on speech: acoustic degradation, prosodic errors, and manipulation of speaker-specific characteristics such as pitch and speaking rate. We obtained MOS predictions for these speech samples from both human listeners and the model, and analyzed the differences in their perceptual characteristics. Results show that most models track acoustic degradation well, while all are insensitive to prosodic errors despite large subjective score drops. For speaker characteristics, models exhibit a double dissociation: strong mean fundamental frequency (F0) biases absent in human ratings, yet insensitivity to speaking rate and F0 variability that humans notice. These findings highlight limitations of scalar MOS prediction beyond acoustic fidelity.
- Abstract(参考訳): 平均世論スコア(MOS)予測モデルは、テキスト音声(TTS)研究のプロキシ指標として広く用いられているが、音質以外の品質差を捉える能力は未だ不明である。
本研究では,音の劣化,韻律的誤り,ピッチや発話速度などの話者固有の特徴の操作など,音声に対する制御的摂動を通してこれを考察する。
人間の聴取者およびモデルからこれらの音声サンプルのMOS予測を行い,その知覚的特徴の違いを解析した。
その結果、ほとんどのモデルは音響劣化をよく追跡するが、いずれも主観的スコアの低下にもかかわらず韻律的誤差に敏感であることがわかった。
話者特性について、モデルは二重解離を示す:強い平均基本周波数(F0)バイアスは人間の評価にはないが、発話速度に敏感であり、人間に気付かれるF0変動である。
これらの所見は, 音響的忠実度を超えたスカラーMOS予測の限界を浮き彫りにした。
関連論文リスト
- Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models [54.041320081289996]
音声対応大言語モデル(ALLM)における不確実性推定に関する最初の系統的研究について述べる。
予測エントロピー、長さ正規化エントロピー、意味エントロピー、個別意味エントロピー、P(True)を含む5つの代表的な手法をベンチマークする。
まず、意味レベルと検証ベースの手法は、一般的な音声推論ベンチマークにおけるトークンレベルベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-04-28T12:56:22Z) - DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models [15.637236155997]
最近の音声マルチモーダル大言語モデル(Audio MLLMs)は,音声ベンチマークで顕著な性能を示した。
これらのモデルが真に音響信号を処理するのか、それともテキストベースの意味推論に依存しているのかは定かではない。
3次元にまたがる2700以上の衝突刺激のベンチマークであるDEAFを紹介する。
論文 参考訳(メタデータ) (2026-03-17T15:52:26Z) - Investigation for Relative Voice Impression Estimation [16.024524623990484]
本研究では,相対音声印象推定(RIE)について検討する。
RIEは、同一話者から2つの発話の知覚的差異を予測するためのフレームワークである。
音声の感情認識によく用いられる古典的音響特徴,自己教師型音声表現,マルチモーダル大言語モデル,の3つの手法を比較した。
論文 参考訳(メタデータ) (2026-02-15T14:54:52Z) - Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - Residual-Guided Non-Intrusive Speech Quality Assessment [4.7590051176368915]
本稿では、障害音声と強化音声の残差に基づいて、非侵入音声品質の評価を改善する手法を提案する。
我々は、障害音声に対する強調音声を生成し、基準音声の欠如を補う。
論文 参考訳(メタデータ) (2022-03-22T07:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。