論文の概要: Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR
- arxiv url: http://arxiv.org/abs/2606.14391v1
- Date: Fri, 12 Jun 2026 12:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.894085
- Title: Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR
- Title(参考訳): 聴覚難聴の学習 : 周波数差を考慮したASRの継続的な学習
- Authors: Henri-Leon Kordt, Theresa Pekarek Rosin, Jae Hee Lee, Stefan Wermter,
- Abstract要約: 最先端のシステムは、しばしば分散を省略するために最適化され、情報損失と幻覚をもたらす。
連続学習を明示的な拡散トークンで活用することで、このギャップに対処する。
マーカー学習とASR性能のトレードオフと,CL法間で共有される一貫したクロスアテンションヘッド機構を同定する。
- 参考スコア(独自算出の注目度): 8.894428198928333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in large-scale Automatic Speech Recognition (ASR), disfluent speech remains challenging, as state-of-the-art systems are often optimized to omit disfluencies, leading to information loss and hallucinations. Prior work has focused on verbatim transcription and the integration of disfluency markers, but adapting models on limited datasets can lead to catastrophic forgetting of general-domain knowledge. We address this gap by leveraging continual learning (CL) with explicit disfluency tokens. We first introduce these tokens into a pretrained ASR model to establish stable token mechanisms, and then continue training on additional datasets with varying disfluency distributions. Through a detailed analysis of model dynamics during training, we identify a trade-off between marker learning and ASR performance, and a consistent cross-attention head mechanism shared across CL methods.
- Abstract(参考訳): 大規模自動音声認識(ASR)の進歩にもかかわらず、最先端のシステムはしばしば分散を省略するために最適化され、情報損失や幻覚につながるため、不自由な音声は依然として困難である。
これまでの研究では、動詞の書き起こしと拡散マーカーの統合に重点を置いてきたが、限られたデータセットにモデルを適用することは、一般的なドメイン知識を破滅的に忘れてしまう可能性がある。
連続学習(CL)を明示的な不フルエンシトークンで活用することで、このギャップに対処する。
まず、これらのトークンを事前訓練されたASRモデルに導入し、安定なトークン機構を確立する。
学習中のモデルダイナミクスの詳細な解析を通じて,マーカー学習とASR性能のトレードオフと,CL法間で共有される一貫したクロスアテンションヘッド機構を同定する。
関連論文リスト
- Addressing Exacerbated Attention Sink for Source-Free Cross-Domain Few-Shot Learning [25.20062959668559]
Cross-Domain Few-Shot Learningは、ソースドメイン情報を少ないトレーニングデータでターゲットドメインに転送することができる。
標準のターゲットドメイン数発の微調整は注意シンク問題を悪化させ、クラス間での識別性が低下する。
本稿では,ターゲットドメインの微調整において,ターゲットドメインクラスとの関係に応じて動的に再重み付けを行う手法を提案する。
論文 参考訳(メタデータ) (2026-05-25T12:49:15Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - Weight Factorization and Centralization for Continual Learning in Speech Recognition [55.63455095283984]
リハーサルのない多言語、言語に依存しない状態でモデルを継続的に訓練することは、破滅的な忘れを招きかねない。
人間の脳が覚醒サイクルを通じて知識を学習・統合する能力に着想を得て,継続的な学習手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T19:59:24Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Dual Invariance Self-training for Reliable Semi-supervised Surgical Phase Recognition [5.7977777220041204]
半教師付き学習、特に擬似ラベル学習は、完全な教師付き手法よりも有望であるが、しばしば信頼できる擬似ラベル評価機構を欠いている。
本稿では,時間的不変性と変換的不変性を組み合わせた新しいSSLフレームワークDISTを提案する。
我々の2段階の自己学習プロセスは、信頼できる擬似ラベルを動的に選択し、堅牢な擬似スーパービジョンを保証する。
提案手法は、ノイズの多い擬似ラベルのリスクを軽減し、決定境界を真のデータ分布に向け、未知のデータへの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-29T13:07:56Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。