論文の概要: Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization
- arxiv url: http://arxiv.org/abs/2606.14030v1
- Date: Fri, 12 Jun 2026 02:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.709937
- Title: Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization
- Title(参考訳): 構造化プルーニングと低ビット量子化によるニューラルスピーカダイアリゼーションの効率-性能トレードオフ
- Authors: Rishit Chatterjee, Tahiya Chowdhury,
- Abstract要約: ストリーミング話者ダイアリゼーションは、時間クリティカルな医療ディスパッチには不可欠だが、リソース制約のあるハードウェアにそれをデプロイするには、より小さく、より高速なモデルが必要である。
ストリーミングレイテンシの予算にまたがるパフォーマンスを特徴付けています。
本研究は,リアルタイム展開におけるトレードオフを特徴づけ,時間的クリティカルな状況下での信頼性の高い人的コミュニケーションを実現するための音声技術に寄与する。
- 参考スコア(独自算出の注目度): 4.683806391173103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming speaker diarization is crucial for time-critical medical dispatch, but deploying it on resource-constrained hardware requires smaller, faster models. Using SIMSAMU, a dataset of simulated medical-dispatch conversations, we evaluate streaming behavior before compressing the segmentation model with pruning and low-bit quantization. We characterize performance across a range of streaming latency budgets and find that additional buffering is not consistently beneficial, while very low-latency operating points can substantially degrade performance. Our study shows that model compression trades performance for memory footprint, and we highlight an operating point where FP16 reduces model size by half with essentially unchanged real-time factor, at a cost of a 40\% relative DER increase against the baseline. This work characterizes the trade-offs for real-time deployment and contributes to speech technology that can enable reliable human communication in time-critical contexts.
- Abstract(参考訳): ストリーミング話者ダイアリゼーションは、時間クリティカルな医療ディスパッチには不可欠だが、リソース制約のあるハードウェアにそれをデプロイするには、より小さく、より高速なモデルが必要である。
SIMSAMUを用いて,プルーニングと低ビット量子化によりセグメンテーションモデルを圧縮する前のストリーミング動作を評価する。
ストリーミングレイテンシの予算にまたがるパフォーマンスを特徴付けるとともに、バッファリングの追加が一貫したメリットではなく、非常に低レイテンシなオペレーティングポイントがパフォーマンスを著しく低下させる可能性があることに気付きます。
本研究は, モデル圧縮がメモリフットプリントの性能を損なうことを示し, FP16 がベースラインに対して 40 % の相対的な DER 増加を犠牲にして, 基本的に変化しない実時間係数でモデルサイズを半減する動作点を強調した。
本研究は,リアルタイム展開におけるトレードオフを特徴づけ,時間的クリティカルな状況下での信頼性の高い人的コミュニケーションを実現するための音声技術に寄与する。
関連論文リスト
- Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise [51.028614105626154]
監視フィードやビデオテレフォニーストリームのような静的なシーンビデオは、ストレージ消費とネットワークトラフィックの圧倒的なシェアを占める。
従来の標準コーデックとニューラルビデオ圧縮(NVC)手法は、時間的冗長性の不十分な使用と、トレーニングデータとテストデータの間の重大な分散ギャップのために、これらのビデオを効率的にエンコードするのに苦労している。
静的シーンビデオのNVCに正のインセンティブノイズを組み込むことを提案し, 短時間の時間変化を正のインセンティブノイズとして再解釈し, モデル微調整を容易にする。
論文 参考訳(メタデータ) (2026-03-06T09:47:25Z) - Large Speech Model Enabled Semantic Communication [58.027223937172955]
大規模音声モデルにより意味コミュニケーション(LargeSC)が可能となった。
我々は、大きなモデルに埋め込まれた豊富な意味的知識を活用し、損失のあるチャネル上で適応的な伝達を可能にする。
システムは、550bpsから2.06kbpsまでの帯域幅をサポートし、パケット損失率の高い音声品質において、従来のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-04T11:58:08Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。