Fugu-MT 論文翻訳(概要): NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction

論文の概要: NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction

arxiv url: http://arxiv.org/abs/2606.24087v1
Date: Tue, 23 Jun 2026 03:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.751126
Title: NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction
Title（参考訳）: ニューロソニック:脳波対音声再構成のための条件付きフローマッチング
Authors: Wenhao Gao, Yifan Wang, Yijia Ma, Carl Yang, Wen Li, Chenyu You,
Abstract要約: 頭皮脳波検査(EEG)による連続的な音声の再構成は基本的には困難である。脳波から音声への再構成のための条件付きフローマッチングフレームワークであるNeuroSonicを導入する。ニューロソニックは,脳波条件下でのクリーン音声に向けて,音の破損した音の状態を伝達する決定論的確率流場を学習する。
参考スコア（独自算出の注目度）: 30.839290792276852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reconstructing continuous speech from scalp electroencephalography (EEG) remains fundamentally challenging. EEG provides a weak, spatially diffuse, and highly variable measurement of distributed cortical activity, whereas speech is organized as a coherent acoustic trajectory with strong harmonic and temporal structure. The resulting mismatch makes waveform regression unstable and causes stochastic multi-step generation to be sensitive to artifact-dependent conditioning and subject variability. We introduce NeuroSonic, a conditional flow-matching framework for EEG-to-speech reconstruction. Instead of predicting waveforms directly or refining them through stochastic denoising, NeuroSonic learns a deterministic probability-flow velocity field that transports a noise-corrupted acoustic state toward clean speech under EEG conditioning. EEG and audio are embedded into a shared token space and processed by a time-conditioned gated Transformer that parameterizes the transport ordinary differential equation. This formulation models trajectory evolution explicitly while avoiding iterative stochastic sampling. We evaluate NeuroSonic on the CineBrain and EAV benchmarks under cross-subject evaluation. Across both datasets, the proposed method improves distributional realism, spectral fidelity, and perceptual quality over representative GAN-, diffusion-, and mean-flow baselines, with up to a 26.3\% gain in overall perceptual quality. The performance gap is most evident in artifact-heavy segments, where conditioning variability is strongest. These findings indicate that deterministic conditional transport provides a stable and effective formulation for EEG-driven speech reconstruction. Code is available at https://github.com/Y-Research-SBU/NeuroSonic/ .
Abstract（参考訳）: 頭皮脳波検査(EEG)による連続的な音声の再構成は基本的には困難である。脳波は、弱く、空間的に拡散し、高度に可変な分散皮質活動の測定を提供する一方、音声は強高調波と時間構造を持つコヒーレント音響軌道として構成される。結果のミスマッチは波形の回帰を不安定にし、確率的多段階生成を人工物依存の条件付けや対象変数に敏感にする。脳波から音声への再構成のための条件付きフローマッチングフレームワークであるNeuroSonicを導入する。ニューロソニックは、波形を直接予測したり、確率的デノイングによって精製する代わりに、ノイズ崩壊した音響状態を脳波条件下でクリーンな音声に伝達する決定論的確率流速場を学習する。 EEGとオーディオは共有トークン空間に埋め込まれ、輸送常微分方程式をパラメータ化する時間条件付きゲート変換器によって処理される。この定式化モデルは、反復確率サンプリングを回避しながら、トラジェクトリ進化を明示的にモデル化する。我々は,CineBrain と EAV のベンチマークによるNeuroSonic の評価を行った。いずれのデータセットにおいても,提案手法はGAN,拡散,平均フローベースラインよりも分布リアリズム,スペクトル忠実度,知覚品質を向上し,全体の知覚品質は最大26.3%向上する。コンディショニングの多様性が最強であるアーティファクト重セグメントでは、パフォーマンスギャップが最も顕著である。これらの結果から, 決定論的条件伝達は, 脳波による音声再構成に安定かつ効果的な定式化をもたらすことが示唆された。コードはhttps://github.com/Y-Research-SBU/NeuroSonic/で入手できる。

関連論文リスト

BandRouteNet: An Adaptive Band Routing Neural Network for EEG Artifact Removal [0.0]
BandRouteNetは、EEG復調のための適応周波数対応ニューラルネットワークである。バンド固有の処理とフルバンドコンテキストモデリングを利用する。 EEGDenoiseNetベンチマークデータセットに関する大規模な実験は、BandRouteNetが他のメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2026-04-27T12:54:31Z)
DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography [2.6915545700357986]
音響波形を直接SoSマップにマッピングする条件拡散モデルDiffSOSを提案する。本フレームワークでは,物理波計測におけるデノナイジング過程の基盤として,特殊音響制御ネットを用いている。我々は,我々のフレームワークの生成特性を利用して画素単位の不確実性を推定し,信頼性の尺度を提供する。
論文参考訳（メタデータ） (2026-02-27T23:51:16Z)
Self-induced stochastic resonance: A physics-informed machine learning approach [0.0]
自己誘発共鳴(英: Self-induced resonance, SISR)は、ノイズのみによって駆動される励起系におけるコヒーレント振動の出現である。本研究は、フィッツヒューニューロンにおけるSISRのモデリングと予測のための物理インフォームド機械学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-26T21:49:20Z)
WaveNet's Precision in EEG Classification [1.0885910878567457]
本研究では,脳波信号の生理的,病理学的,アーティファクト的,ノイズ的分類の自動化を目的としたWaveNetに基づくディープラーニングモデルを提案する。モデルは、70/20/10%のスプリットで209,232個のサンプルをトレーニングし、検証し、テストした。 WaveNetのアーキテクチャは、もともと生音声合成のために開発されたもので、拡張因果畳み込みと残差接続を使用するため、EEGデータによく適している。
論文参考訳（メタデータ） (2025-10-10T09:21:21Z)
MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction [7.233654849867492]
我々は,iEEG信号の時間的,スペクトル的,神経生理学的表現を統合した深層学習フレームワークMiSTRを紹介する。パブリックなiEEGデータセットに基づいて、MiSTRは最先端の音声インテリジェンスを達成する。
論文参考訳（メタデータ） (2025-08-05T07:12:52Z)
Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文参考訳（メタデータ） (2025-06-06T03:20:32Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文参考訳（メタデータ） (2020-04-06T06:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。