Fugu-MT 論文翻訳(概要): How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech

論文の概要: How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech

arxiv url: http://arxiv.org/abs/2606.20532v1
Date: Thu, 18 Jun 2026 17:47:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:40.035995
Title: How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech
Title（参考訳）: インストラクションはどのようにして音声を形作るか? : 字幕字幕音声に対するクロスアテンション属性
Authors: Nityanand Mathur, Hamees Sayed, Wasim Madha, Apoorv Singh, Sameer Khurana, Akshat Mandloi, Sudarshan Kamath,
Abstract要約: スタイルキャプション付き音声合成システムは音声特性を制御するために自然言語を用いるが、個々の単語が音響出力に与える影響は未定である。本稿では,DAAMフレームワークを音声領域に適用し,発話拡散モデルに対するクロスアテンション属性を提案する。これは、自然言語が音声拡散モデルにおけるクロスアテンションにどのように影響するかに関する最初の研究である。
参考スコア（独自算出の注目度）: 8.950816086845114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Style-captioned text-to-speech systems use natural language to control voice characteristics, but how individual words influence acoustic output remains unclear. Understanding this is critical for diagnosing failure modes and improving controllability in expressive TTS. We propose cross-attention attribution for speech diffusion models, adapting the DAAM framework to the speech domain for the first time, and apply it to CapSpeech-TTS. Our method extracts per-token heatmaps across 25 layers and 24 ODE steps. We analyze 3,600 (style caption, text transcript) combinations comprising 120 style captions conditioning the generation of 30 text transcripts each, revealing how caption tokens shape waveforms. Results show: (1) style tokens have lower temporal variance than content/function tokens, confirming global conditioning; (2) style attention correlates with F0 and energy; (3) style conditioning peaks in early steps and deep layers; (4) attention entropy reaches its minimum at layer 17, co-occurring with the style importance peak, indicating maximal network selectivity at the most style-critical stage. This is the first study of how natural language influences cross-attention in speech diffusion models
Abstract（参考訳）: スタイルキャプション付き音声合成システムは音声特性を制御するために自然言語を用いるが、個々の単語が音響出力に与える影響は未定である。これを理解することは、障害モードの診断と、表現力のあるTSの制御性向上に不可欠である。本稿では,音声拡散モデルに対するクロスアテンション属性を提案し,DAAMフレームワークを初めて音声領域に適用し,CapSpeech-TTSに適用する。提案手法は,25層および24ODEステップにまたがる熱マップを抽出する。我々は,30文字の転写文の生成を条件とした120字の字幕からなる3,600(字幕,字幕)の組み合わせを分析し,字幕トークンがどのように波形を形成するかを明らかにする。その結果,(1) スタイルトークンは,(1) コンテンツ/ファンクショントークンよりも時間的変動が低く,グローバルコンディショニングの確認,(2) スタイルアテンションとF0とエネルギーの相関,(3) スタイルアテンションピークと深層におけるスタイルアテンションエントロピーの最小値,(4) スタイル重要ピークと共起し,最もスタイルクリティカルな段階での最大ネットワーク選択性を示す。これは、自然言語が音声拡散モデルにおけるクロスアテンションにどのように影響するかに関する最初の研究である。

関連論文リスト

DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion [23.01044837428522]
我々は、音声LLMが音声応答とともに内部テキスト推論を生成するパラダイムであるtextbfSilent Thought, Spoken Answer'を紹介する。本稿では,理解と生成の両方をサポートする最初の拡散型音声テキスト言語モデルを提案する。実験の結果,最先端の音声合成QAの精度を最大9ポイント向上させることができた。
論文参考訳（メタデータ） (2026-01-30T12:08:33Z)
OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-19T07:31:55Z)
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文参考訳（メタデータ） (2024-03-05T16:35:25Z)
Natural language guidance of high-fidelity text-to-speech with synthetic annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文参考訳（メタデータ） (2024-02-02T21:29:34Z)
TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-28T09:06:32Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。