論文の概要: Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models
- arxiv url: http://arxiv.org/abs/2606.11167v1
- Date: Tue, 09 Jun 2026 17:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.655667
- Title: Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models
- Title(参考訳): 全二重音声モデルにおける多面的相互作用アライメント
- Authors: Atsumoto Ohashi, Neil Zeghidour, Alexandre Défossez, Eugene Kharitonov,
- Abstract要約: RLによる全音声対話モデルを改善する訓練後アライメント手法を提案する。
対話性の4つの標準軸(ターンテイキング、バックチャネル一時停止、ユーザ中断)に対処する。
応答品質に対する追加ベースの報酬は、セマンティックな劣化を防ぐ。
- 参考スコア(独自算出の注目度): 53.470209949659115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Full-duplex spoken dialogue models can listen and speak simultaneously, making them a promising architecture for natural conversation. However, current models are trained solely with supervised learning through token-level likelihood maximization, which does not directly optimize interaction-level behaviors, causing interactivity issues such as excessive silence and ill-timed turn-taking. Recent work has applied reinforcement learning (RL) to improve interactivity, but existing methods address only a limited set of interactive behaviors in their rewards. In this work, we propose a post-training alignment method that comprehensively improves the interactivity of full-duplex spoken dialogue models through RL. We address the four canonical axes of interactivity: pause handling, turn-taking, backchanneling, and user interruption. For each axis, we extract short audio segments from human conversation corpora and optimize the model with axis-specific reward functions. An extra LLM-based reward for response quality prevents semantic degradation. We apply our method to two open-source models, Moshi and PersonaPlex, demonstrating consistent improvements in interactivity on both offline evaluation with pre-recorded audio and real-time multi-turn dialogue evaluation.
- Abstract(参考訳): フル二重音声対話モデルは、聞き取りと会話を同時に行うことができ、自然な会話のための有望なアーキテクチャとなる。
しかし、現在のモデルはトークンレベルの極大化による教師あり学習によってのみ訓練されており、これは直接的に相互作用レベルの振る舞いを最適化せず、過剰な沈黙や不正なターンテイクのような相互作用の問題を引き起こす。
最近の研究は、強化学習(RL)を用いて対話性を向上させるが、既存の手法は報酬の限られたインタラクティブな振る舞いにのみ対応している。
本研究では,RLによる全二重音声対話モデルの対話性を包括的に改善する学習後アライメント手法を提案する。
対話性の4つの標準軸 – 一時停止処理,ターンテイキング,バックチャネル,ユーザ中断 – に対処する。
各軸について、人間の会話コーパスから短い音声セグメントを抽出し、軸特異的報酬関数を用いてモデルを最適化する。
応答品質に対する余分なLLMベースの報酬は、セマンティックな劣化を防ぐ。
提案手法をMoshiとPersonaPlexの2つのオープンソースモデルに適用し,事前録音音声によるオフライン評価とリアルタイムマルチターン対話評価の両面において,対話性が一貫した改善を示す。
関連論文リスト
- ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models [49.18708573170585]
経験的な評価は、ASPIRinがターンテイキング、バックチャネル、一時停止処理をまたいで対話性を最適化していることを示している。
ASPIRin degrade turn to say when when when to fall when. ASPIRin degrade turn to say when when to say。
論文 参考訳(メタデータ) (2026-04-11T07:07:08Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。