論文の概要: Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering
- arxiv url: http://arxiv.org/abs/2606.11836v2
- Date: Thu, 11 Jun 2026 17:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.334649
- Title: Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering
- Title(参考訳): パラメータクラスタリングを用いた音声基礎モデルのデータフリー・トレーニングフリー圧縮に向けて
- Authors: Haoning Xu, Zhaoqing Li, Huimeng Wang, Youjun Chen, Chengxi Deng, Mengzhe Geng, Xunying Liu,
- Abstract要約: 本稿では,k-meansを用いたチャネルワイドクラスタリングを用いた音声基礎モデルに対する,データフリーかつトレーニングフリーな圧縮手法を提案する。
LibriSpeechデータセットで行った実験では、HuBERTの大きな部分で50%の切断間隔で操作すると、一貫したWERの27.73%/18.61%の絶対値が低下することが示唆された。
- 参考スコア(独自算出の注目度): 22.824815645805117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel data-free and training-free compression approach for speech foundation models using channelwise clustering via k-means. More fine-grained, mixed sparsity pruning by layer-level varying number of parameter clusters is also explored. Experiments conducted on the LibriSpeech dataset suggest that when operating with pruning sparsity of 50% on HuBERT-large, consistent WER reductions of 27.73%/18.61% absolute (34.37%/21.91% relative) over the magnitude-based pruning were obtained on the test-clean and test-other subsets before fine-tuning and 0.19%/0.79% absolute (3.36%/4.62% relative) after fine-tuning with only 3 epochs. Similar WER reductions of 2.86%/5.02% absolute (59.21%/55.29% relative) were observed against magnitudebased pruning on Whisper-large-v3 at 10% sparsity, all with no significant WER increase relative to the uncompressed baseline.
- Abstract(参考訳): 本稿では,k-meansを用いたチャネルワイドクラスタリングを用いた音声基礎モデルに対する,データフリーでトレーニング不要な新しい圧縮手法を提案する。
また, 層レベルの異なるパラメータクラスタ数によるより微細で混合された疎水性プルーニングについても検討した。
LibriSpeechデータセットで行った実験では、微細調整前のテストクリーンおよびテスト他のサブセットで、純度に基づくプルーニングよりも27.73%/18.61%(34.37%/21.91%)、微調整後の0.19%/0.79%(3.36%/4.62%)、微調整後のWERの絶対値が27.73%/18.61%(34.37%/21.91%)低下したことが示唆された。
同様のWERの2.86%/5.02%の絶対値(59.21%/55.29%の相対値)は、Whisper-large-v3の10%の間隔でのスケールベースプルーニングに対して観測された。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Neural expressiveness for beyond importance model compression [2.536703706045127]
表現性(Expressiveness)というモデル圧縮のための新しい基準を導入する。
表現力は、情報資源を効果的に再分配するニューロンまたはニューロンのグループを強調する。
表現性は任意のデータや限られたデータセットの代表サンプルと効果的に近似されていることを示す。
論文 参考訳(メタデータ) (2025-12-06T14:07:34Z) - Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates [20.16951333751427]
本稿では,モデルプルーニングとパラメータ更新を一段階に統合した音声基礎モデル圧縮手法を提案する。
LibriSpeech-100hr corpus を用いた実験により,wav2vec2.0-base と HuBERT-large モデルのパラメータ数を 65% と 60% 削減できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T17:24:21Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Applying SoftTriple Loss for Supervised Language Model Fine Tuning [1.5469452301122177]
この損失関数は、クロスエントロピー損失(0.02% - 2.29%)で微調整されたロバータベースラインモデルを改善することができる。
トレーニングデータセットのサンプルが少ないほど、ゲインが高くなります -- そのため、小規模データセットでは0.78%、中規模データセットでは0.86%、大規模データセットでは0.20%、超大型データセットでは0.04%です。
論文 参考訳(メタデータ) (2021-12-15T20:21:20Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。