論文の概要: HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec
- arxiv url: http://arxiv.org/abs/2606.06743v1
- Date: Thu, 04 Jun 2026 21:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.462063
- Title: HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec
- Title(参考訳): HybridCodec: 高速デュアルストリーム、セマンティックに強化されたニューラルオーディオコーデック
- Authors: Arjun Gangwar, S Umesh,
- Abstract要約: HybridCodecは、SSL表現をセマンティックストリームに蒸留しながら、別々のセマンティックブランチとアコースティックブランチを使用する。
ドメイン内テストセットと競合再構築(RVQ-all)において、セマンティックロバスト性(RVQ-1)が優れていることを示す。
ドメイン外およびゼロショットのクロスランガル設定における特殊化を実証し、既存のデュアルストリームモデルよりも3倍のスピードアップを実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of neural audio codecs as speech tokenizers has surged with the advent of Multimodal Large Language Models. New codec architectures with semantic and acoustic disentanglement have emerged. There are two main approaches to introduce semantic information into codec models: one distills semantic information from SSL representations into the first RVQ layer, while the other maintains separate streams for semantic and acoustic features. We propose HybridCodec, a unified architecture that combines both paradigms. It employs separate semantic and acoustic branches while distilling SSL representations into the semantic stream. This design ensures strong disentanglement without requiring an SSL model during inference. HybridCodec shows superior semantic specialization (RVQ-1) on in-domain test set and competitive reconstruction (RVQ-all). We demonstrate its robustness in out-of-domain and zero-shot cross-lingual settings, achieving a 3x speedup over existing dual-stream models.
- Abstract(参考訳): 音声トークン化者としてのニューラルオーディオコーデックの人気は、マルチモーダル大規模言語モデル(英語版)の出現とともに急上昇している。
意味的・音響的ゆがみを持つ新しいコーデックアーキテクチャが出現した。
1つはSSL表現からセマンティック情報を第1のRVQ層に蒸留し、もう1つはセマンティックおよび音響的特徴のために別々のストリームを保持する。
両パラダイムを組み合わせた統一アーキテクチャであるHybridCodecを提案する。
SSL表現をセマンティックストリームに蒸留しながら、別個のセマンティックブランチとアコースティックブランチを使用する。
この設計は、推論中にSSLモデルを必要とせずに、強い絡み合いを保証する。
HybridCodecは、ドメイン内テストセットと競合再構築(RVQ-all)において、優れたセマンティック特殊化(RVQ-1)を示す。
ドメイン外およびゼロショットのクロスランガル設定において、その堅牢性を実証し、既存のデュアルストリームモデルよりも3倍のスピードアップを実現した。
関連論文リスト
- EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement [54.95940885045993]
EntangleCodecは、量子化の前にキャプションに沿った意味音響表現を学習する独立したオーディオトークンである。
コンパクトなトークンストリーム内に言語内容、話者識別、感情、韻律、音響シーンをキャプチャする。
特殊なコーデックと競合する再構成品質を実現し、統合されたフレームワークでTSとTTAの生成をサポートする。
論文 参考訳(メタデータ) (2026-06-01T18:05:18Z) - WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling [35.33131758542107]
WavCubeはSSL音声エンコーダから派生したコンパクトな連続ラテントである。
言語理解、再構築、生成を同時にサポートする。
試行では、最先端のゼロショットTSパフォーマンスと、トレーニングコンバージェンスを著しく高速化することを示している。
論文 参考訳(メタデータ) (2026-05-07T15:17:24Z) - Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation [66.53544128707817]
Cheersは、パッチレベルの詳細をセマンティック表現から切り離す、統一されたマルチモーダルモデルである。
チェアは視覚的理解と生成の両方において、高度なUMMと一致または超えます。
論文 参考訳(メタデータ) (2026-03-13T08:55:27Z) - STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs [19.07983030478734]
STACodecは自己教師付き学習(SSL)モデルからの意味情報を残差ベクトル量子化(RVQ-1)の第1層に統合する
本研究では,第1のRVQ層に代入するための意味トークンを直接予測する意味事前蒸留(SPD)モジュールを提案する。
論文 参考訳(メタデータ) (2026-02-05T20:36:24Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。