論文の概要: Adaptive Turn-Taking for Real-time Multi-Party Voice Agents
- arxiv url: http://arxiv.org/abs/2606.13544v1
- Date: Thu, 11 Jun 2026 16:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.913049
- Title: Adaptive Turn-Taking for Real-time Multi-Party Voice Agents
- Title(参考訳): リアルタイム多人数音声エージェントのための適応型ターンタイキング
- Authors: Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish,
- Abstract要約: マルチパーティ設定において、明示的に割り当てられたロールにターンテイク動作を条件付けるロールプレイング音声エージェントであるModerratorLMを提案する。
RolePlayConvは,多様なアシスタント機能を備えた音声多人数会話の大規模合成データセットである。
- 参考スコア(独自算出の注目度): 4.515705397557082
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Turn-taking in multi-party spoken conversations remains a fundamental challenge for voice-based agents, particularly under dynamic floor competition and varying user expectations. We propose ModeratorLM, a role-playing voice agent that conditions turn-taking behavior on an explicitly assigned role in multi-party settings. The system is built on a speech large language model operating in chunk-wise streaming manner. We further introduce a reasoning-augmented variant that incorporates chain-of-thought reasoning over conversational context and the assigned role. We construct RolePlayConv, a large-scale synthetic dataset of spoken multi-party conversations with diverse assistant roles. Experiments on real-world meeting data and RolePlayConv show improved turn-taking precision by over 40% and recall by more than 70%, while substantially reducing false-positive interruptions compared to non-role-conditioned baselines.
- Abstract(参考訳): マルチパーティの会話におけるターンテイクは、音声ベースのエージェントにとって、特にダイナミックフロアコンペティションとさまざまなユーザ期待の下では、依然として根本的な課題である。
マルチパーティ設定において、明示的に割り当てられたロールにターンテイク動作を条件付けるロールプレイング音声エージェントであるModerratorLMを提案する。
このシステムは、チャンクワイズストリーミング方式で動作する音声大言語モデルに基づいて構築されている。
さらに、会話コンテキストと割り当てられた役割に対するチェーン・オブ・シント推論を取り入れた推論拡張型を導入する。
RolePlayConvは,多様なアシスタント機能を備えた音声多人数会話の大規模合成データセットである。
実世界のミーティングデータとRolePlayConvの実験では、ターンテイク精度が40%以上向上し、リコール率が70%以上向上した。
関連論文リスト
- Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning [57.22705949022221]
RoleJudgeは、音声大言語モデルを利用して、音声と文字のアライメントを評価する評価フレームワークである。
連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
論文 参考訳(メタデータ) (2026-04-15T12:39:03Z) - AdaMARP: An Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing [71.66362858228418]
LLMロールプレイングは、対話的な物語において任意のキャラクターを描写することを目的としているが、既存のシステムは没入性や適応性に制限されることが多い。
本稿では,[Thought], (Action), Environment>, and Speechをインターリーブする没入型メッセージ形式を特徴とする,適応型マルチエージェントロールプレイングフレームワークAdaMARPを提案する。
論文 参考訳(メタデータ) (2026-01-16T05:41:45Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。