論文の概要: On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models
- arxiv url: http://arxiv.org/abs/2606.23285v1
- Date: Mon, 22 Jun 2026 12:58:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:31:55.682847
- Title: On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models
- Title(参考訳): 生成音声言語モデルの音声合成と継続に及ぼすセグメンテーション幅とクラスタサイズの影響について
- Authors: Shunsuke Kando, Wataru Nakata, Shinnosuke Takamichi, Yusuke Miyao,
- Abstract要約: Generative Spoken Language Modeling (GSLM) は、言語モデルをトレーニングすることで、テキストフリーの音声モデリングを可能にする。
離散音声表現を用いた音声合成と継続におけるGSLMの性能について検討する。
- 参考スコア(独自算出の注目度): 25.93282682937446
- License:
- Abstract: Generative Spoken Language Modeling (GSLM) enables text-free speech modeling by training language models (LMs) using discrete speech representations instead of textual transcription. In this paper, we investigate the performance of GSLM on speech synthesis and continuation using discrete speech representations with varying bitrates. We segment speech representations with fixed widths and train K-means models in multiple cluster sizes, resulting in various bitrate settings. We demonstrate that intelligible and natural speech can be synthesized at lower bitrate settings than the baseline. Furthermore, speech continuation quality remains stable at lower bitrates across multiple metrics, suggesting that the conventional GSLM setting may be redundant for effective speech generation. Although LLM-based metrics show higher correlation with human subjective score than conventional metrics, it remains low, highlighting the need for more stable automatic evaluation methods.
- Abstract(参考訳): Generative Spoken Language Modeling (GSLM) は、テキスト書き起こしの代わりに個別の音声表現を用いて言語モデル(LM)を訓練することで、テキストフリーな音声モデリングを可能にする。
本稿では,異なるビットレートを持つ離散音声表現を用いた音声合成と継続におけるGSLMの性能について検討する。
音声表現を固定幅で分割し、複数のクラスタサイズでK平均モデルを訓練し、様々なビットレート設定を行う。
本研究では,ベースラインよりも低ビットレート設定で,インテリジェンスと自然な音声を合成できることを実証する。
さらに,複数の指標をまたいだ低ビットレートでは音声継続品質は安定であり,従来のGSLM設定は効果的な音声生成には冗長である可能性が示唆された。
LLMベースの指標は従来の指標よりも人間の主観的スコアと高い相関を示すが、依然として低いままであり、より安定した自動評価方法の必要性を強調している。
関連論文リスト
- MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables [70.49308038234274]
本稿では,エンコーダと音声モデルとを協調的に最適化する,メルスペクトル上での離散潜在変数モデルを提案する。
共同最適化は、ゼロショットテキスト音声(TTS)と音声テキスト(STT)タスクにおけるオーバーベースやその他のメルスペクトルベースのベースラインの改善をもたらすだけでなく、自動回帰メルスペクトルモデリングにおける一般的な問題を効果的に緩和する。
論文 参考訳(メタデータ) (2026-05-28T12:39:36Z) - SLM-SS: Speech Language Model for Generative Speech Separation [47.06391017558454]
音声分離に言語モデルを適用する新しいアプローチであるSLM-SSを提案する。
我々は,SSを個別のマルチコードブックシーケンス生成とみなし,量子化音声混合物をターゲットトークンにマッピングするコーダモデルを用いた。
提案手法は, 音声の理解度を著しく向上させ, 様々な下流課題における言語的整合性を向上させる。
論文 参考訳(メタデータ) (2026-01-27T12:22:43Z) - LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Enhancing the Stability of LLM-based Speech Generation Systems through
Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。
テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。
結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T15:08:19Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - SLMGAN: Exploiting Speech Language Model Representations for
Unsupervised Zero-Shot Voice Conversion in GANs [22.522376665078248]
本稿では,GAN(Generative Adversarial Network)フレームワークにおいて,SLM表現を識別タスクに活用するための新しいアプローチであるSLMGANを提案する。
StarGANv2-VCをベースとして、新しいSLMベースのWavLMディスクリミネータをメルベースのディスクリミネータに加え、新たに設計されたSLM特徴マッチング損失関数も追加します。
主観評価の結果,SLMGANは既存のゼロショット音声変換モデルよりも自然性に優れ,類似性も同等であることがわかった。
論文 参考訳(メタデータ) (2023-07-18T17:09:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。