論文の概要: Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment
- arxiv url: http://arxiv.org/abs/2606.12940v1
- Date: Thu, 11 Jun 2026 06:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.610869
- Title: Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment
- Title(参考訳): 自己ガイド:デコーダマニフォールドアライメントによるニューラルコーデックの強化
- Authors: Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang,
- Abstract要約: 自己誘導は、量子化トークンと元の連続埋め込みの両方を処理する際にデコーダの内部特徴多様体を整列するために使用される。
これにより、最小限のトレーニングオーバーヘッドと推論時の変更が不要になる。
XCodec2に適用されたセルフガイダンスは、すべての再構築メトリクスを改善し、最先端の低ビットレートパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 15.70133983324942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural speech codecs based on Vector-Quantized VAEs (VQ-VAEs) are core audio tokenizers for speech LLMs, yet their reconstruction fidelity is bottlenecked by quantization error. Modifying the quantizer or increasing model capacity are common fixes, but they complicate downstream language modeling. Our core idea is to align the decoder's internal feature manifolds when processing both the quantized tokens and their original continuous embeddings, using a lightweight feature-mapping loss. This requires minimal training overhead and no inference-time changes. Applied to XCodec2, self-guidance improves all reconstruction metrics, achieving state-of-the-art low-bitrate performance. Notably, it enables a 4x codebook reduction without fidelity loss, which downstream TTS experiments show significantly improves LLM-based synthesis by simplifying the token modeling space. Multiple statistical observations and visualizations corroborate the enhanced internal manifold alignment in the decoder. Extensive experiments confirm its generality across various inductive biases. Self-guidance thus establishes an efficient, broadly applicable method for high-fidelity neural audio coding.
- Abstract(参考訳): Vector-Quantized VAEs (VQ-VAEs) に基づくニューラル音声コーデックは、LLMのコアオーディオトークンである。
量子化器の修正やモデルキャパシティの増大は一般的な修正であるが、下流の言語モデリングを複雑にしている。
我々の中核となる考え方は、量子化トークンと元の連続埋め込みの両方を処理する際にデコーダの内部的特徴多様体を、軽量な特徴マッピング損失を使って整列させることです。
これにより、最小限のトレーニングオーバーヘッドと推論時の変更が不要になる。
XCodec2に適用されたセルフガイダンスは、すべてのリコンストラクションメトリクスを改善し、最先端の低ビットレートパフォーマンスを実現する。
特に、4倍の符号ブックを不確かさをなくすことができ、下流のTSS実験ではトークンモデリング空間を単純化してLLMベースの合成を大幅に改善している。
複数の統計観測と可視化はデコーダの強化された内部多様体アライメントを腐食させる。
広範囲な実験により、様々な帰納バイアスにまたがる一般性が確認されている。
したがって、自己誘導は高忠実性ニューラルオーディオ符号化のための効率的で広く適用可能な方法を確立する。
関連論文リスト
- Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs [50.3757247538081]
我々は、統一パイプラインの下で、5つの共通ビジョンエンコーダの空でないサブセット31を再訓練し、評価する。
各エンコーダのコントリビューションを,容量と必要量という2つの軸に分解する。
エンコーダごとのプロジェクタ有効ランクは、残留スコアの変動を説明する。
論文 参考訳(メタデータ) (2026-06-02T16:46:42Z) - OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec [55.40419731151658]
メル-スペクトログラム再構成に最適化されたニューラルオーディオコーデックは、しばしばインテリジェンスを維持することができない。
本研究では,自己教師付き再建(SSRR)の喪失がトレーニングとパフォーマンスを根本的に改善することを示す。
我々のJHCodecは、最小のレイテンシとトレーニングコストの削減を維持しながら、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-03-06T04:13:06Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Switchcodec: Adaptive residual-expert sparse quantization for high-fidelity neural audio coding [11.19956590509655]
SwitchCodecはResidual Experts Vector Quantization(REVQ)に基づくニューラルオーディオである。
REVQは、共有量子化器と動的にルーティングされた専門家量子化器を結合し、入力オーディオに従って活性化される。
SwitchCodecは、客観的メトリクスと主観的リスニングテストの両方の既存のベースラインを超えている。
論文 参考訳(メタデータ) (2026-01-28T08:26:20Z) - HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。
提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。
HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-25T02:44:30Z) - MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation [19.998635838159217]
MagiCodecは、トランスフォーマーベースの新しいシングルレイヤー・ストリーミングオーディオである。
周波数領域におけるノイズ注入の効果を解析的に導出し,その有効性を示す。
MagiCodecは、再構築品質と下流タスクの両方において最先端のコーデックを上回っていることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:31:02Z) - L3AC: Towards a Lightweight and Lossless Audio Codec [10.903708510237875]
我々は、単一量子化器と高効率アーキテクチャを活用することで課題に対処する軽量なニューラルオーディオであるL3ACを紹介する。
L3ACは、複数の時間スケールにわたる音響変化を捉えるように設計された新しい構造であるTConvとともに、合理化された畳み込みネットワークとローカルトランスフォーマーモジュールを探索する。
論文 参考訳(メタデータ) (2025-04-07T11:34:39Z) - Efficient Evaluation of Quantization-Effects in Neural Codecs [4.897318643396687]
ニューラルコーデックのトレーニングには、量子化器の非ゼロ勾配を許容する技術が必要である。
本稿では,シミュレーションデータを用いたニューラルコーデックの効率的な評価手法を提案する。
内科的音声勾配と最先端のdescript-audio-codecに対する検討を行った。
論文 参考訳(メタデータ) (2025-02-07T09:11:19Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。