論文の概要: Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior
- arxiv url: http://arxiv.org/abs/2606.22790v1
- Date: Mon, 22 Jun 2026 02:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:37:30.129941
- Title: Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior
- Title(参考訳): 効率的な音響モデルのスケーリング:計算制約と最適化挙動の合同研究
- Authors: Vyom Agarwal, Mokshda Gangrade, Siddharth Pal, Jerry Wu,
- Abstract要約: 自動音声認識(ASR)と音声感情認識(SER)の2つのタスクにおける計算割当とモデル性能のトレードオフについて検討する。
モデルサイズ(x_N$)、入力長(x_T$)、表現解像度(x_V$)の3つの基本的な計算次元を分析する統一的なフレームワークを提案する。
本研究は,効率的な音声モデル設計のための実践的ガイドラインを提供するとともに,計算資源をモデル容量,時間的文脈,表現的粒度に最適に分散する方法についての知見を提供する。
- 参考スコア(独自算出の注目度): 0.21874189959020426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the tradeoffs between compute allocation and model performance for two speech processing tasks: Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER). We propose a unified framework that analyzes three fundamental compute dimensions: model size ($x_N$), input length ($x_T$), and representation resolution ($x_V$). Motivated by recent advances in compute optimal scaling for multimodal models, we systematically vary these dimensions to examine their influence on task performance under fixed computational budgets. Our study provides insights into how compute resources can be optimally distributed across model capacity, temporal context, and representational granularity, offering practical guidelines for the design of efficient speech models. Through experiments on LibriSpeech and CREMA-D datasets, we demonstrate non-linear scaling behavior and identify optimal operating points. Our results show that (1) increasing model size yields diminishing returns: scaling Tiny (39M) to Small (244M) reduces WER by 8.22%, whereas Small to Medium (769M) reduces WER by only 2.35%; (2) an optimal audio duration of approximately 4 seconds exists for SER; and (3) reducing encoder token resolution provides an effective mechanism for lowering inference cost, Large-v3 (1540M) with 750 frames requires 2572 GFLOPS whereas with 1500 frames requires 5228 GFLOPS, with less than 3% relative increase in WER. Additionally, LoRA-based adaptation enables efficient finetuning with minimal performance degradation.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)と音声感情認識(SER)の2つの音声処理タスクにおいて,計算割当とモデル性能のトレードオフについて検討する。
モデルサイズ(x_N$)、入力長(x_T$)、表現解像度(x_V$)の3つの基本的な計算次元を分析する統一的なフレームワークを提案する。
マルチモーダルモデルにおける計算最適スケーリングの最近の進歩により、これらの次元を体系的に変化させ、固定された計算予算の下でのタスクパフォーマンスへの影響を調べる。
本研究は,効率的な音声モデル設計のための実践的ガイドラインを提供するとともに,計算資源をモデル容量,時間的文脈,表現的粒度に最適に分散する方法についての知見を提供する。
LibriSpeechとCREMA-Dデータセットの実験を通じて、非線形スケーリングの挙動を示し、最適動作点を同定する。
その結果,(1)Tiny(39M),Small(244M),Small to Medium(769M)はWERをわずか2.35%削減し,(2)SERに約4秒のオーディオ期間が最適であること,(3)エンコーダトークンの解像度の低減は推論コストを下げる効果的なメカニズムを提供すること,(3)Large-v3(1540M)は750フレームで2572GFLOPSを必要とする一方で,1500フレームでは5228GFLOPSが必要であり,WERの相対的な増加は3%以下である,という結果が得られた。
さらに、LoRAベースの適応により、パフォーマンスの劣化を最小限に抑えた効率的な微調整が可能となる。
関連論文リスト
- Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Optimization of DNN-based speaker verification model through efficient quantization technique [15.250677730668466]
ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。
本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:03:10Z) - Big model only for hard audios: Sample dependent Whisper model selection
for efficient inferences [7.592727209806414]
いくつかのASRモデルが様々なサイズに存在するが、推論コストが異なるため、性能レベルが異なる。
我々は、オーディオサンプルが与えられた場合、十分な最小のモデルを使用することで、良好な書き起こしにつながる決定モジュールを訓練することを提案する。
決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。
論文 参考訳(メタデータ) (2023-09-22T08:50:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficient Speech Representation Learning with Low-Bit Quantization [32.75829498841329]
音声表現学習モデルにおける最近の量子化手法を適用し,検討する。
1ビットへのアグレッシブ量子化により、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。
モデル圧縮も目的とするDistillHuBERTと比較すると、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、ランタイム推定(0.15対0.73)が向上した。
論文 参考訳(メタデータ) (2022-12-14T06:09:08Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。