論文の概要: TRADE: Transducer-Augmented Decoder for Speech LLM
- arxiv url: http://arxiv.org/abs/2606.08486v1
- Date: Sun, 07 Jun 2026 07:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.140942
- Title: TRADE: Transducer-Augmented Decoder for Speech LLM
- Title(参考訳): TRADE:音声LLM用トランスデューサ拡張デコーダ
- Authors: Yun Tang, Shanil Puri, Shinji Watanabe, Subhabrata Mukherjee,
- Abstract要約: 音声大言語モデル(Speech LLM)は、ストリーミング推論の原理的なメカニズムを欠いている。
音声エンコーダを共有するトランスデューサブランチでマルチモーダルLLMを増強するTRADE TRansducer-Augmented DEcoderを提案する。
3つの設計上の選択により、システムは正確で、ストリーミング可能で、長い形にすることができる。
- 参考スコア(独自算出の注目度): 52.69726809996728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Large Language Models (Speech LLMs) lack a principled mechanism for streaming inference: their label-synchronous generation has no acoustic-frame alignment, making real-time decoding and end-of-utterance detection difficult. We propose TRADE TRansducer-Augmented DEcoder, which augments a multimodal LLM with a transducer branch that shares the audio encoder and uses the LLM's hidden states directly as the prediction network -- coupling frame-synchronous acoustic alignment with the LLM's linguistic reasoning. Three design choices make the system accurate, streamable, and long-form capable: (1)Tightly coupled dual vocabularies -- a compact transducer vocabulary derived from the LLM vocabulary, enabling zero-cost score fusion; (2)Chunk-synchronized streaming training with gradient stopping, eliminating the train-inference mismatch at offline-equivalent memory cost; and (3)Localized Decoder Audio Attention (LDAA), a causal sliding window that caps KV-cache memory independently of utterance length. A single TRADE checkpoint supports offline and streaming decoding across a continuous range of latency operating points. TRADE achieves 6.71% average WER on the Open ASR Leaderboard, while the streaming recognition with 960ms chunk size reaches 8.40% from the same checkpoint. On long-form speech, it obtains 3.64% WER on TED-LIUM and 10.88% on Earnings-22 without external segmentation. TRADE provides sentence-end punctuation timestamps that, when combined with acoustic voice activity detection (VAD), improve end-of-utterance detection by +0.03 F_1 over acoustic VAD alone.
- Abstract(参考訳): 音声大言語モデル (Speech LLMs) にはストリーミング推論の原理的なメカニズムが欠如しており、ラベル同期生成にはアコースティック・フレームのアライメントがなく、リアルタイムのデコーディングや発話の終端検出が困難である。
音声エンコーダを共有するトランスデューサブランチでマルチモーダルLLMを拡張し,LLMの隠れ状態を直接予測ネットワークとして使用するTRADE TRansducer-Augmented Decoderを提案する。
1)LLMボキャブラリから派生したコンパクトなトランスデューサ語彙と,0コストのスコアフュージョンを実現すること,(2)Chunk-synchronizedストリーミングトレーニングによる勾配停止,オフライン同値メモリコストでの列車干渉ミスマッチの排除,(3)KV-cacheメモリを発話長に依存しない因果的スライディングウィンドウであるLDAA(Localized Decoder Audio Attention)である。
単一TRADEチェックポイントは、オフラインとストリーミングのデコードをサポートし、連続的な待ち時間操作ポイントをサポートする。
TRADEはOpen ASR Leaderboard上で平均6.71%のWERを達成する一方、960msのチャンクサイズを持つストリーミング認識は同じチェックポイントから8.40%に達する。
長文音声ではTED-Liumが3.64%、Earnings-22が10.88%である。
TRADEは、音声活動検出(VAD)と組み合わせた文末句読解タイムスタンプを提供する。
関連論文リスト
- Diffusion Large Language Models for Visual Speech Recognition [56.81307584718608]
本稿では,最初の拡散大言語モデル(DLLM)に基づく視覚音声認識(VSR)フレームワークを提案する。
DLLM-VSRは早期に高信頼位置をコミットし、コミットトークンを双方向コンテキストとして、曖昧なトークンを洗練させる。
我々は、ビデオ長を用いて、可塑性転写長仮説を構築する長さ誘導型候補復号法を開発した。
提案手法はラベル付きトレーニングデータのみを用いて, LRS3 上で19.5%の最先端 WER を実現する。
論文 参考訳(メタデータ) (2026-05-27T13:22:08Z) - WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics [99.89493037369071]
音声の重複や遠距離雑音,話者数の変化など,会話の自動音声認識は依然として困難である。
近年のLCMベースのシステムは単一話者のベンチマークでは良好に動作するが、マルチ話者設定におけるロバスト性は不明確である。
重なり、意味的忠実度、話者数、シングルチャンネルとマルチチャネル入力の4つの軸に沿って、LLMベースのアプローチとモジュラーアプローチを体系的に比較する。
論文 参考訳(メタデータ) (2026-03-24T02:01:21Z) - MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens [40.95973318669374]
本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法は,毎秒3.5トークンしか使用せず,WERが0.72%の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-14T11:31:30Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。