論文の概要: Domain-incremental audio classification using domain-specific experts and prototype classifier
- arxiv url: http://arxiv.org/abs/2606.22952v1
- Date: Mon, 22 Jun 2026 07:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:21:20.751907
- Title: Domain-incremental audio classification using domain-specific experts and prototype classifier
- Title(参考訳): ドメイン特化専門家とプロトタイプ分類器を用いたドメイン増分音声分類
- Authors: Jongyeon Park, Do-Hyeon Lim, Sang-won Park, Hong Kook Kim, Kyungdeuk Ko, Hyeongcheol Geum, Jeong Eun Lim,
- Abstract要約: 主な障害は、システムが一度に過去または将来のドメインのデータにアクセスできないことである。
ドメインインクリメンタルラーニング(DIL)をフリーズ機能リプレイ問題として検討した。
DILに準拠した3つのシステムと78.15%マイクロ/77.03%マクロのクロススタックアンサンブルを作成した。
- 参考スコア(独自算出の注目度): 4.541172620857825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents submission systems for Task 7(domain-incremental audio classification) of the DCASE 2026 Challenge. The main obstacle is that, the system is unable to access to past or future domain's data at once. We approached domain-incremental learning (DIL) as a frozen-feature replay problem. At each incremental stage, one or two compact experts are trained and then kept fixed; at the final stage, the penultimate features from all frozen experts are concatenated and used to train a lightweight per-class prototype classifier solely on cached features. This design prevents catastrophic forgetting by preserving each expert models at inference. To retain earlier-domain knowledge without storing raw audio, some experts were trained with DeepInversion-based generative replay. A cross-stage regression imputer was trained to fill the expert feature slots that did not yet exist at an ealier stage. We submit four fully DIL-compliant systems: three systems based on diverse frozen five-expert backbones and their cross-stack ensemble achieving 78.15% micro / 77.03% macro on the development set, outperforming every individual backbone on both evaluations.
- Abstract(参考訳): 本技術報告では,DCASE 2026チャレンジのタスク7(ドメイン-インクリメンタルオーディオ分類)の提出システムについて述べる。
主な障害は、システムが一度に過去または将来のドメインのデータにアクセスできないことである。
ドメインインクリメンタルラーニング(DIL)をフリーズ機能リプレイ問題として検討した。
各段階において、1つまたは2つのコンパクトな専門家が訓練され、その後修正される。最終段階では、凍結された専門家全員の最後尾的な特徴が結合され、キャッシュされた機能のみに基づいて、軽量なクラスごとのプロトタイプ分類器のトレーニングに使用される。
この設計は、推論時に各専門家モデルを保存することにより、破滅的な忘れを防止する。
生のオーディオを保存せずに早期のドメイン知識を維持するために、DeepInversionベースの生成リプレイを訓練した専門家もいた。
急激な段階ではまだ存在していない専門家の特徴スロットを満たすために、クロスステージ回帰インダクタが訓練された。
多様な凍結した5つの専門家のバックボーンとそれらのクロススタックアンサンブルに基づく3つのシステムが開発セット上で78.15%のマイクロ/77.03%のマクロを達成し、両方の評価において各バックボーンを上回っている。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning [28.78785349011036]
汎用連続学習(GCL)は、タスク境界をクリアにすることなく、シングルパス、非定常データストリームから学習するインテリジェントシステムに挑戦する。
FlyPromptは脳にインスパイアされたフレームワークで、GCLを2つのサブプロブレムに分解する。
論文 参考訳(メタデータ) (2026-02-02T11:32:56Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift [62.50795372173394]
我々は,ライダーポイント雲のセマンティックセグメンテーションのための教師なし領域適応において,視覚基盤モデル(VFM)を利用したレシピの同定を行う。
その結果、パイプラインは4つの広く認識され、困難な設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-21T17:57:43Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Class-incremental Learning using a Sequence of Partial Implicitly
Regularized Classifiers [0.0]
クラス増分学習では、トレーニングデータ全体にアクセスすることなく、複数のクラスを順次学習することが目的である。
CIFAR100データセットの実験では、提案手法がSOTAの性能を大きなマージンで向上させることが示された。
論文 参考訳(メタデータ) (2021-04-04T10:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。