Fugu-MT 論文翻訳(概要): Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

論文の概要: Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2606.10029v1
Date: Mon, 08 Jun 2026 18:09:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.120283
Title: Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders
Title（参考訳）: スパースオートエンコーダを用いたテキスト音声言語モデルの解釈とステアリング
Authors: Nikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov,
Abstract要約: 我々は、CosyVoice3のLMバックボーンにBatchTopKスパースオートエンコーダを訓練する。テキスト対応のコンテキストや1秒の音声クリップ、あるいはその両方を表示できる。検索された機能は解釈可能で、音素、笑い、アクセントプロンプト、話者の性別が多岐にわたる。
参考スコア（独自算出の注目度）: 8.27358250310327
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models increasingly serve as the backbone of text-to-speech (TTS) systems, yet we understand little about the representations they build when text and generated speech tokens share a single residual stream. We train BatchTopK sparse autoencoders on the LM backbone of CosyVoice3 and introduce a modality-aware auto-interp pipeline that labels each feature from where it fires-text-prefix context, 1-second speech clips, or both. The recovered features are interpretable, spanning phonemes, laughter, accent prompts and speaker gender. Steering through the SAE latent space shows these features are causal rather than merely descriptive: targeted interventions raise laughter probability from 0.02 to 0.79, flip perceived speaker gender, and control speech rate while preserving spoken content. SAE features thus serve both as interpretability objects and as control directions for TTS synthesis.
Abstract（参考訳）: 言語モデルは、テキスト音声(TTS)システムのバックボーンとして機能する傾向にあるが、テキストと生成された音声トークンが単一の残留ストリームを共有するときに構築される表現についてはほとんど理解されていない。我々は、CosyVoice3のLMバックボーン上にBatchTopKスパースオートエンコーダをトレーニングし、テキスト-プレフィックスコンテキスト、1秒の音声クリップ、あるいはその両方を起動する各機能にラベル付けした、モダリティ対応のオートインタップパイプラインを導入します。検索された機能は解釈可能で、音素、笑い、アクセントプロンプト、話者の性別が多岐にわたる。目的的介入は、笑いの確率を0.02から0.79に上げ、話者の性別を反転させ、音声コンテンツを保存しながら発話率を制御する。したがって、SAE機能は、解釈可能性オブジェクトとTS合成の制御方向の両方として機能する。

関連論文リスト

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。 We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-07T17:07:56Z)
Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation [12.571782794778182]
CoT(Chain-of-Thought)プロンプトが導入されており、音声と文字起こしを共同でアクセスすることがこれらの問題を克服すると予想されている。主に音声の書き起こしに頼りながら、ほとんど音声を生かして、カスケードされた振る舞いを反映していることがわかりました。直接S2TTデータの追加やノイズのある書き起こし注入といった簡単な訓練介入は、堅牢性を高め、音声の帰属性を高める。
論文参考訳（メタデータ） (2025-10-03T15:42:38Z)
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations [7.55995559331834]
パラ言語的発声は自然な音声通信に不可欠である。 NVSpeechはパラ言語的発声の認識と合成を橋渡しする。 NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
論文参考訳（メタデータ） (2025-08-06T08:25:26Z)
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech [13.3878636941081]
IndexTTS2は、音声持続時間制御のための新しい、一般的な、そして自己回帰的なモデルフレンドリーな方法である。感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れている。
論文参考訳（メタデータ） (2025-06-23T08:33:40Z)
DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。 Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文参考訳（メタデータ） (2024-06-13T05:23:22Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。