論文の概要: Breaking Shortcut Learning for Cross-Trial EEG-Guided Target Speech Extraction via Two-Stage Training
- arxiv url: http://arxiv.org/abs/2606.24164v1
- Date: Tue, 23 Jun 2026 05:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.793196
- Title: Breaking Shortcut Learning for Cross-Trial EEG-Guided Target Speech Extraction via Two-Stage Training
- Title(参考訳): 双方向脳波誘導目標音声抽出のための2段階学習による切断短絡学習
- Authors: Wonchul Shin, Inyong Choi, Kyogu Lee,
- Abstract要約: 高い生体内性能は、ターゲット選択のショートカットとして機能するトライアル固有の脳波構造によって駆動される。
ショートカット学習を緩和する2段階のフレームワークを提案する。
KULとDTUデータセットの実験により、TRUST-TSEは厳密なクロスコートプロトコルの下で、エンドツーエンドのベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 28.219701298970467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent end-to-end models for EEG-guided target speech extraction report impressive results, underscoring potential for neuro-steered hearing technologies. However, our analysis reveals that high within-trial performance can be driven by trial-specific EEG structure that acts as shortcuts for target selection, leading to poor generalization on unseen trials. To overcome this gap, we propose TRUST-TSE, a two-stage framework to mitigate shortcut learning. By introducing contrastive pretraining with attended-speaker negative sampling, we encourage the EEG encoder to capture fine-grained EEG--speech alignment while suppressing trial-identity cues. We also employ a confidence-weighted extraction objective based on EEG--source similarity to guide extraction using the learned representations. Experiments on KUL and DTU datasets show that TRUST-TSE outperforms end-to-end baselines under strict cross-trial protocols, addressing a key reliability bottleneck of existing approaches.
- Abstract(参考訳): 脳波誘導型ターゲット音声抽出のための最近のエンド・ツー・エンドモデルによる印象的な結果の報告, ニューロステアリング型聴力評価技術の可能性
しかし,本研究では,標的選択のショートカットとして機能する試験特異的な脳波構造により,内科的性能が向上し,未確認試験の一般化が遅れることが判明した。
このギャップを克服するために,ショートカット学習を緩和する2段階フレームワークであるTRUST-TSEを提案する。
脳波エンコーダ(EEGエンコーダ)は,受講者陰性サンプリングによる対照的な事前訓練を導入することにより,試行錯誤を抑えつつ,きめ細かな脳波-音声アライメントを捉えることを奨励する。
また、脳波のソース類似性に基づく信頼度重み付き抽出目標を用いて、学習した表現を用いて抽出をガイドする。
KULとDTUデータセットの実験によると、TRUST-TSEは厳密なクロスコートプロトコルの下でエンドツーエンドのベースラインよりも優れており、既存のアプローチの重要な信頼性ボトルネックに対処している。
関連論文リスト
- UniER: A Unified Benchmark for Item-level and Path-level Exercise Recommendation [53.62147575168325]
We present a Unified Benchmark for Exercise Recommendation (UniER)
UniERは、ILERとPLERを統合する包括的な評価フレームワークである。
本研究は, pleRの系統的優位性を明らかにするとともに, ILERのフラグメントドレコメンデーションの教育的失敗を明らかにするものである。
論文 参考訳(メタデータ) (2026-05-16T02:07:58Z) - Enabling Unsupervised Training of Deep EEG Denoisers With Intelligent Partitioning [2.1530718840070784]
ウェアラブル脳波(EEG)は本質的に困難である。
ディープラーニング手法は、分解不要の脳波復調において有望であることを示す。
我々は,iPSDのためのインテリジェントパーティショニングを提案する。
論文 参考訳(メタデータ) (2026-05-07T10:55:10Z) - NeuroTTT: Bridging Pretraining-Downstream Task Misalignment in EEG Foundation Models via Test-Time Training [6.030518150035875]
本稿では,脳波基礎モデルのための2段階アライメント戦略を提案する。
まず,ドメイン固有の自己教師型微調整パラダイムであるNeuroTTTを提案する。
第2に、未ラベルのテストサンプルの自己教師型テストタイムトレーニングを行う。
我々のアプローチは、大規模なEEG基盤モデルにおけるテストタイムトレーニングとドメインチューニングされたセルフスーパービジョンを統合する最初の方法です。
論文 参考訳(メタデータ) (2025-09-30T14:14:46Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - FlowTSE: Target Speaker Extraction with Flow Matching [16.054014378418316]
FlowTSEは、条件付きフローマッチングに基づく、シンプルだが効果的なTSEアプローチである。
位相再構成が重要であるタスクに対しては、混合信号の複雑なSTFTを条件とした新しいボコーダを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:01:30Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。