論文の概要: TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion
- arxiv url: http://arxiv.org/abs/2606.07293v1
- Date: Fri, 05 Jun 2026 14:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.768986
- Title: TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion
- Title(参考訳): TargetSEC: Arousal-Conditioned Latentスタイル拡散によるプラグイン・アンド・プレイ・イン・ザ・ワイヤド音声感情変換
- Authors: Constantin Alexander Auga,
- Abstract要約: 音声感情変換は、ソース発話の感情を、コンテンツと話者のアイデンティティを保ちながら、ターゲットの感情に変換することを目的としている。
既存の固定順アプローチは、感情を効果的にシフトさせるのに苦労するか、音声の自然性を低下させるかのいずれかである。
本稿では,話者のアイデンティティと連続的な感情を前提とした感情重視型埋め込みを生成する,埋め込み駆動の潜時拡散フレームワークであるTargetSECを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Emotion Conversion (SEC) aims to transform the emotion of a source utterance into a target emotion while preserving content and speaker identity. SEC on in-the-wild data is challenging due to the non-parallel nature of training data and complex real-world acoustics. Existing fixed-duration approaches either struggle to shift the emotion effectively (high quality, low conversion) or degrade speech naturalness (low quality, high conversion). We propose TargetSEC, an embedding-driven latent diffusion framework that generates emotion-focused style embeddings conditioned on speaker identity and continuous emotion. Unlike methods that diffuse over spectrograms, TargetSEC operates in a compact latent space. Experiments on the MSP-Podcast dataset show that TargetSEC outperforms current non-duration baselines in conversion accuracy while maintaining high speech quality, and achieves performance comparable to duration-prediction systems without explicit temporal modeling.
- Abstract(参考訳): 音声感情変換(SEC: Speech Emotion Conversion)は、ソース発話の感情を、コンテンツと話者のアイデンティティを保ちながら、ターゲットの感情に変換することを目的としている。
訓練データと複雑な実世界の音響の非並列性のため、Wildデータに対するSECの取り組みは困難である。
既存の固定順化アプローチは、感情を効果的にシフトさせるのに苦労する(高品質、低コンバージョン)か、あるいは音声の自然性を低下させる(低品質、高コンバージョン)。
本研究では,話者のアイデンティティと連続感情を前提とした感情重視型埋め込みを生成する,埋め込み駆動型潜伏拡散フレームワークであるTargetSECを提案する。
分光器上で拡散する手法とは異なり、TargetSECはコンパクトな潜在空間で動作する。
MSP-Podcastデータセットの実験により、TargetSECは、高い音声品質を維持しながら、変換精度において現在の非デュレーションベースラインよりも優れており、明示的な時間的モデリングを伴わずに、持続予測システムに匹敵する性能を実現する。
関連論文リスト
- ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment [52.31881685769569]
ImmersiveTTSは環境コンテキストにシームレスに統合された自然な音声を生成する環境対応テキスト音声合成(TTS)モデルである。
本モデルは,マルチモーダル拡散変換器上に構築され,テキスト条件付き環境コンテキストでテキスト対応音声を融合する。
実験結果から,ImmersiveTTSは既存手法よりも自然性,知性,音声の忠実度が高いことがわかった。
論文 参考訳(メタデータ) (2026-05-29T07:58:54Z) - VISAFF: Speaker-Centered Visual Affective Feature Learning for Emotion Recognition in Conversation [17.099995082943735]
会話における感情認識(ERC)は人間と機械の効果的な相互作用に不可欠である。
近年のビジョン・ランゲージ・モデル(VLM)は本質的にERCに適合していない。
話者中心型VISual AFFective機能学習フレームワークであるVISAFFを提案する。
論文 参考訳(メタデータ) (2026-05-18T15:27:10Z) - Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation [19.86687369529118]
第10回ABAWコンペティション用に設計された新しいマルチモーダルフレームワークTAEMI(Text-Anchored Emotional Mimicry Intensity Estimation)を提案する。
連続的な視覚信号と音響信号が過渡的環境騒音の影響を受けやすいという観察により,従来の対称核融合パラダイムを破ることができた。
本フレームワークは,6つの連続的感情次元におけるピアソン相関係数の最先端化を実現し,既存のベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2026-03-16T08:37:37Z) - VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation [34.905479321921575]
このフレームワークは、解釈可能な、きめ細かい母音レベルの韻律的手がかりで、大きな言語モデルを拡張する。
VowelPromptは、ゼロショット、微調整、クロスドメイン、クロス言語条件下で、最先端の感情認識手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-06T00:09:14Z) - Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion [30.25632448893884]
Emotional Voice Conversion (EVC) は、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。
本研究では,対象感情の正確な音声を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。
提案手法の有効性は、英語とヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインにまたがって示されている。
論文 参考訳(メタデータ) (2024-12-29T05:30:06Z) - DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。
本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。
また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文 参考訳(メタデータ) (2024-01-16T03:39:35Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。