論文の概要: BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM
- arxiv url: http://arxiv.org/abs/2606.14528v1
- Date: Fri, 12 Jun 2026 15:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.949096
- Title: BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM
- Title(参考訳): BayLing-Duplex:単一自己回帰LDMを用いたネイティブフルダブル音声対話
- Authors: Qingkai Fang, Shoutao Guo, Yang Feng,
- Abstract要約: BayLing-Duplexはネイティブのフル世代のSpeechLMで、どの場所を聴くか、いつ話すか、いつ停止するかを補助的なターンテイクモジュールなしで決める。
InstructS2S-Evalでは92%のターンテイク成功、100%割り込み成功、Moshiでは2.17から3.39に改善した。
- 参考スコア(独自算出の注目度): 37.246890931249496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time, full-duplex speech interaction is a key feature of next-generation spoken chatbots, allowing the model to listen and speak at the same time and to handle natural phenomena such as overlap, hesitation, and barge-in. Existing speech language models (SpeechLMs) such as LLaMA-Omni and GLM-4-Voice are still turn-based and rely on an external Voice Activity Detection (VAD) module to mark the end of the user's turn, which fundamentally limits their interactive ability. In this paper, we introduce BayLing-Duplex, a native full-duplex SpeechLM where a single autoregressive LLM decides when to listen, when to speak, and when to stop, with no auxiliary turn-taking module. The design adds only a few special tokens to the standard vocabulary, so it transfers across LLMs and reuses existing training and serving stacks with no architectural adaptation. Starting from the public GLM-4-Voice checkpoint and using only 400K full-duplex samples for fine-tuning followed by a lightweight DPO stage, BayLing-Duplex reaches 92% turn-taking success and 100% interruption success on InstructS2S-Eval, while improving the speech-response score from 2.17 to 3.39 over Moshi. BayLing-Duplex also matches or surpasses its turn-based counterpart on Llama Questions, Web Questions, and Alpaca-Eval, showing that simultaneous listen-and-speak modeling does not sacrifice response quality.
- Abstract(参考訳): リアルタイム、フル二重音声対話は、次世代の音声チャットボットの重要な特徴であり、モデルが同時に聴き、話すことができ、重複、ためらう、バージインといった自然現象を処理できる。
LLaMA-OmniやGLM-4-Voiceのような既存の音声言語モデル(SpeechLM)はまだターンベースであり、ユーザのターンの終了をマークするために外部のVoice Activity Detection (VAD)モジュールに依存している。
本稿では,1つの自己回帰型LLMが,いつ聴くか,いつ話すか,いつ停止するかを,補助的なターンテイクモジュールを使わずに決定する,ネイティブなフルデュプレックスSpeechLMであるBayLing-Duplexを紹介する。
この設計では、標準的な語彙にいくつかの特別なトークンしか加えられないので、LLMをまたいで転送し、既存のトレーニングやサービススタックをアーキテクチャ的な適応なしに再利用する。
GLM-4-Voiceチェックポイントから始まり、400Kのフルデュプレックスサンプルのみを使用して微調整を行い、さらに軽量なDPOステージでベイリング・デュプレックスは92%のターンテイク成功、インストラクトS2S-Evalでの100%の中断成功を達成し、モシでの音声応答スコアを2.17から3.39に改善した。
BayLing-Duplexはまた、Llama Questions、Web Questions、Alpaca-Evalでターンベースをマッチまたはオーバーしている。
関連論文リスト
- Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models [53.470209949659115]
RLによる全音声対話モデルを改善する訓練後アライメント手法を提案する。
対話性の4つの標準軸(ターンテイキング、バックチャネル一時停止、ユーザ中断)に対処する。
応答品質に対する追加ベースの報酬は、セマンティックな劣化を防ぐ。
論文 参考訳(メタデータ) (2026-06-09T17:46:55Z) - Liberating LLM Capabilities in Full-Duplex Speech Models [7.252793405548695]
音声に基づく大きなモダリティ言語モデルは、通常、音声応答によって制約される。
本稿では,単一オートレがユーザの音声を聴き,可視自由形テキストを主出力として書き,リアルタイムの口頭反応を共通因果的注意の下で並列に話すという,テキストライトファースト三チャンネルパラダイムを提案する。
これらの結果から,可視文字はリアルタイムな口頭反応を犠牲にすることなく,音声対話のための第1級出力チャネルとして機能することが示唆された。
論文 参考訳(メタデータ) (2026-05-04T17:54:41Z) - DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization [17.80344425747229]
私たちのキーとなるアイデアは、従来の発話の長めの旋回をチャンク・ターンの相互作用に変換することです。
ターンテイク応答のタイミングを確実に調整するために,一組の対話型特殊制御トークンを導入する。
論文 参考訳(メタデータ) (2026-03-10T04:35:22Z) - Fun-Audio-Chat Technical Report [71.07966678560291]
音声トークン(25Hz)とテキストトークン(3Hz)の間の時間分解能は意味情報のミスマッチを緩和し、高い計算コストを発生させる。
本稿では,大規模な音声合成タスクであるFun-Audio-Chatを紹介する。
Fun-Audio-Chat 8BとMoE 30BA3Bは、SpeechTextとSpeech-to-scaleタスクの競合性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T08:35:27Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - A Full-duplex Speech Dialogue Scheme Based On Large Language Models [23.994130020644842]
シームレスな対話を可能にする 生成生成対話システムです
システムは問い合わせ応答のためのトークンを生成し、ユーザを待ち、あるいは操作するために自律的な決定を行う。
論文 参考訳(メタデータ) (2024-05-29T20:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。