論文の概要: MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2606.14459v1
- Date: Fri, 12 Jun 2026 13:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.917698
- Title: MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition
- Title(参考訳): MoDiCoL:ロバスト音声認識のためのモジュール型診断連続学習データセット
- Authors: Theresa Pekarek Rosin, Matthias Kerzel, Stefan Wermter,
- Abstract要約: モデルロバスト性は、継続的に発展する動的な能力として扱うことができると我々は主張する。
本研究では,インクリメンタルアップデートをシミュレートする実世界型連続学習カリキュラムを提案する。
- 参考スコア(独自算出の注目度): 9.310155608815283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Automatic Speech Recognition (ASR) systems have made remarkable progress on standard benchmarks, yet performance gaps have emerged under real-world distribution shifts, caused by recording conditions, accents, speech impairments, and noise. Existing datasets and benchmarks typically isolate these factors, which overlooks their co-occurrence in real-world applications. In this paper, we argue that model robustness can be treated as a dynamic capability that continually develops, and we introduce MoDiCoL, a Modular Diagnostic Continual Learning dataset designed for controlled analysis of linguistic content, speaker characteristics, and acoustic environments. Furthermore, we propose a real-world-inspired continual learning curriculum to simulate incremental updates and study how robustness is acquired, transferred, and forgotten. We evaluate three continual learning strategies and provide detailed insights into robustness under evolving conditions.
- Abstract(参考訳): 現代の自動音声認識(ASR)システムは、標準ベンチマークにおいて顕著な進歩を遂げているが、実際の分散シフトでは、記録条件、アクセント、音声障害、ノイズによってパフォーマンスのギャップが出現している。
既存のデータセットとベンチマークは通常、これらの要因を分離する。
本稿では,モデルロバスト性は連続的に発達する動的能力として扱うことができると論じ,言語内容,話者特性,音響環境の制御を目的としたモジュール型診断連続学習データセットであるMoDiCoLを紹介する。
さらに,段階的な更新をシミュレートし,頑健さの獲得,伝達,および忘れ方について検討する実世界の継続的学習カリキュラムを提案する。
我々は,3つの連続学習戦略を評価し,進化する条件下での堅牢性に関する詳細な知見を提供する。
関連論文リスト
- Model-Based Reinforcement Learning for Control under Time-Varying Dynamics [40.96573079787976]
時間変動力学下での制御のための強化学習について検討する。
適応型データバッファ機構を用いた実用的な楽観的モデルベース強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-02T16:52:59Z) - Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams [78.9560820155271]
我々は、ストリーミングよりもオンライン適応を評価し、知識を継続的に更新する。
OAKSはOAKS-BABIとOAKS-Novelの2つのデータセットから構成される。
最先端モデルとエージェントメモリシステムはどちらもOAKSにしっかりと適応できない。
論文 参考訳(メタデータ) (2026-03-08T00:38:39Z) - Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards [8.109014000578766]
ASR-TRAは、因果介入に触発された新しいテストタイム強化適応フレームワークである。
提案手法は,既存のTTAベースラインよりも低レイテンシを維持しながら高い精度を実現する。
我々のアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2026-03-05T14:43:15Z) - Modular Memory is the Key to Continual Learning Agents [100.09688599754465]
In-Weight Learning(IWL)の強みと、モジュラーメモリの設計を通じて新たに登場したIn-Context Learning(ICL)の機能を組み合わせることが、大規模に継続的適応するための欠片である、と我々は主張する。
我々は、ICLを高速適応と知識蓄積に活用するモジュール型メモリ中心アーキテクチャの概念的フレームワークと、モデル機能の安定した更新のためのIWLについて概説する。
論文 参考訳(メタデータ) (2026-03-02T11:40:05Z) - Refining Context-Entangled Content Segmentation via Curriculum Selection and Anti-Curriculum Promotion [14.803333807611414]
CurriSegは2段階学習フレームワークで、カリキュラムと反カリキュラム原則を統合して表現信頼性を向上させる。
カリキュラム選択フェーズでは,サンプル損失の時間統計に基づいて,CurriSegが動的にトレーニングデータを選択する。
本稿では, 高周波成分を抑圧し, 低周波構造および文脈条件への依存を強制するスペクトラル・ブラインドネス・ファイン・チューニングを設計する。
論文 参考訳(メタデータ) (2026-02-01T12:12:24Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Time Will Change Things: An Empirical Study on Dynamic Language
Understanding in Social Media Classification [5.075802830306718]
我々は、実験的にソーシャルメディアのNLUを動的に研究し、モデルが過去のデータに基づいてトレーニングされ、将来のテストが行われる。
自動エンコーディングと擬似ラベルが協調して、動的性の最良の堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2022-10-06T12:18:28Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。