論文の概要: Liberating LLM Capabilities in Full-Duplex Speech Models
- arxiv url: http://arxiv.org/abs/2606.07547v1
- Date: Mon, 04 May 2026 17:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.702559
- Title: Liberating LLM Capabilities in Full-Duplex Speech Models
- Title(参考訳): 全二重音声モデルにおけるLLM能力の解放
- Authors: Luoyuan Zhang, Bokai Xu, Junbo Cui, Weiyue Sun, Yingjing Xu, Hanyu Liu, Yuan Yao,
- Abstract要約: 音声に基づく大きなモダリティ言語モデルは、通常、音声応答によって制約される。
本稿では,単一オートレがユーザの音声を聴き,可視自由形テキストを主出力として書き,リアルタイムの口頭反応を共通因果的注意の下で並列に話すという,テキストライトファースト三チャンネルパラダイムを提案する。
これらの結果から,可視文字はリアルタイムな口頭反応を犠牲にすることなく,音声対話のための第1級出力チャネルとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 7.252793405548695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.
- Abstract(参考訳): 音声ベースの大規模言語モデルは、通常、音声応答に制約されるため、永続的で構造化され、検査可能な中間出力を必要とするタスクに対して、ユーザ側の出力を言語化できるものに制限し、コード生成、構造化分析、リアルタイムインタラクションにおける多段階推論などのテキストネイティブ機能を抑制する。
既存の作業は、音声の推論や全二重のターンテイクを改善するが、テキストを第一級の出力チャネルではなく、隠れた中間状態または従属的なモダリティとして扱う。
単一自己回帰型LLMがユーザ音声を連続的に聴き、可視自由形テキストを主出力として書き、共有因果的注意コンテキスト下でリアルタイムな口頭反応を並列に話す、テキストファースト三チャンネルパラダイムであるListen-Write-Speak (LWS)を提案する。
この動作は完全にToken Schemaを通じて実装され、アーキテクチャの変更は必要とせず、2段階のデータパイプラインを通じて学習される。
実証的には、LWSはFull-Duplex-Bench上で強いフルダブルプレックス相互作用を示し、VoiceBench AlpacaEvalで4.72に達し、92.6%の筆記型一貫性を達成し、URO-Benchでの内部改善を一貫して上回っている。
これらの結果から,可視文字はリアルタイム応答性を犠牲にすることなく,音声対話のための第1級出力チャネルとして機能することが示唆された。
コードとデータセットはプロジェクトのページ(https://royalzhang.com/project/lws-page/.com/)で公開されている。
関連論文リスト
- Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs [33.559566576032964]
本稿では,LLMの入力埋め込み多様体内に存在する全ての音声表現を制約する言語間LLMブリッジであるConvex Gateを提案する。
C-Gateは、自動音声認識と感情認識にまたがって、強い関節演奏を実現する。
結果として,トークンの離散性よりも幾何が音声からLLMインターフェースの基本設計要素であることが示唆された。
論文 参考訳(メタデータ) (2026-06-08T11:38:40Z) - How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue [36.88464167279495]
音声対話システムは、ユーザ入力の到着生成をサポートする必要がある。
チャネル融合はより強力な基底的意味を持ち、一貫してより良い質問性能をもたらす。
クロスアテンションルーティングは質問応答では不十分だが、LLM生成コンテキストをよりよく保存する。
論文 参考訳(メタデータ) (2026-05-11T08:46:47Z) - Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。
実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-07T17:07:56Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing [35.31866559807704]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。