論文の概要: PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue
- arxiv url: http://arxiv.org/abs/2606.12902v1
- Date: Thu, 11 Jun 2026 04:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.58737
- Title: PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue
- Title(参考訳): PRISM:共感音声対話のための韻律付きマルチエージェント推論フレームワーク
- Authors: Wen Zhang, Xiaocui Yang, Zhuoyue Gao, Shi Feng, Daling Wang, Yifei Zhang,
- Abstract要約: PRISMは共感的音声対話のためのマルチエージェントフレームワークである。
音声認識、応答生成、音声合成をコーディネートコンポーネントに分離する。
- 参考スコア(独自算出の注目度): 29.006038821337327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic spoken dialogue systems require not only semantically appropriate responses but also emotionally aligned prosodic expression. However, cascade pipelines often discard acoustic cues during speech-to-text conversion, while end-to-end speech models lack interpretable control over emotion and knowledge integration. To address these challenges, we propose PRISM, a multi-agent framework for empathetic spoken dialogue that decouples speech perception, response generation, and speech synthesis into coordinated components. PRISM introduces a prosody-to-language translation mechanism to stabilize large language model reasoning and enables on-demand invocation of external knowledge tools for empathetic dialogue generation. Experimental results demonstrate that PRISM achieves consistent improvements in empathy, prosodic appropriateness, and text response generation quality across objective and subjective metrics. Our code is available at: https://github.com/Bxzfrm/PRISM.
- Abstract(参考訳): 共感的音声対話システムは、意味的に適切な応答だけでなく、感情的に整合した韻律表現を必要とする。
しかし、カスケードパイプラインは、音声からテキストへの変換中に音響的手がかりを捨てることが多いが、エンドツーエンドの音声モデルは、感情と知識の統合に対する解釈可能な制御を欠いている。
これらの課題に対処するために,音声認識,応答生成,音声合成を協調したコンポーネントに分離する,共感型音声対話のためのマルチエージェントフレームワークであるPRISMを提案する。
PRISMは,大規模言語モデルの推論を安定化する韻律から言語への翻訳機構を導入し,情緒的対話生成のための外部知識ツールのオンデマンド実行を可能にする。
実験結果から,PRISMは主観的および主観的指標間で共感,韻律的適切性,テキスト応答生成品質を一貫した改善を達成できることが示された。
私たちのコードは、https://github.com/Bxzfrm/PRISM.comで利用可能です。
関連論文リスト
- MOSS-TTSD: Text to Spoken Dialogue Generation [62.04179716555789]
複数の言語にまたがる多人数会話音声のための音声対話合成モデルであるMOSS-TTSDを提案する。
長文モデリングの強化により、MOSS-TTSDは明示的な話者タグを持つ対話スクリプトから長文音声対話を生成する。
このモデルは、英語や中国語を含む様々な主流言語をサポートし、いくつかの長文のシナリオに適応している。
論文 参考訳(メタデータ) (2026-03-20T08:23:31Z) - ES4R: Speech Encoding Based on Prepositive Affective Modeling for Empathetic Response Generation [30.006550552714938]
共感的音声対話は、言語内容だけでなく、豊富なパラ言語情報も理解する必要がある。
既存の音声から音声への大きな言語モデルは、ASRの転写に依存するか、エンコーダを使用して潜在表現を抽出する。
音声に基づく共感応答生成のためのフレームワークである textbfES4R を提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:50Z) - Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations [45.06725378575657]
暗黙的な非言語的文脈でLLM(Large Language Model)の会話を豊かにするマルチモーダルなヒューマン・AIインタラクションのためのフレームワークであるEmpathic Promptingを提案する。
このシステムは、商業的な表情認識サービスを統合し、ユーザの感情的な手がかりをキャプチャし、プロンプト中にコンテキスト信号として埋め込む。
論文 参考訳(メタデータ) (2025-10-23T17:08:03Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。