論文の概要: MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data
- arxiv url: http://arxiv.org/abs/2606.20696v1
- Date: Mon, 15 Jun 2026 08:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 16:06:00.83445
- Title: MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data
- Title(参考訳): MindAlign: 限られたデータによるマルチモーダル埋め込みアライメントによるfMRI信号からの内的音声のデコード
- Authors: Muxuan Liu, Ichiro Kobayashi, Satoshi Nishida,
- Abstract要約: 我々は,fMRI信号からのオープンエンドテキスト生成を可能にする2段階の脳言語フレームワークであるMindAlignを提案する。
サイレント画像記述中に収集されたfMRIデータの実験により、提案手法はfMRIのみのベースラインとランダムなベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 4.280521231404364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding inner speech from non-invasive brain signals remains a fundamental challenge due to the absence of overt linguistic output, limited training data, and large inter-subject variability. Existing brain-to-text approaches often rely on task-specific decoder fine-tuning, which restricts scalability and complicates adaptation to new participants. We propose MindAlign, a decoupled two-stage brain-to-language framework that enables open-ended text generation from fMRI signals without modifying the underlying language model. The first stage learns a subject-specific neural-semantic alignment that maps fMRI activity into a shared multimodal semantic space, extracting a latent semantic sketch of the internally generated sentence. The second stage integrates this sketch with visual context to prompt a frozen multimodal language model for free-form generation. Experiments on fMRI data collected during silent image description demonstrate that the proposed approach consistently outperforms fMRI-only and random baselines. We further show that the learned semantic-to-language projection can generalize across subjects, enabling effective decoding when paired with subject-specific neural alignment. These results indicate that neural signals modulate semantic content beyond image-driven priors, supporting a scalable and modular direction for brain-to-text decoding.
- Abstract(参考訳): 非侵襲的な脳信号からの内的音声の復号は、過剰な言語出力の欠如、限られた訓練データ、大規模な物体間変動のため、依然として根本的な課題である。
既存のブレイン・トゥ・テキストのアプローチは、しばしばタスク固有のデコーダの微調整に依存し、スケーラビリティを制限し、新しい参加者への適応を複雑にする。
我々は,fMRI信号からのオープンエンドテキスト生成を,基礎となる言語モデルを変更することなく実現する,分離された2段階の脳言語フレームワークであるMindAlignを提案する。
第1段階は、fMRIのアクティビティを共有マルチモーダルなセマンティック空間にマッピングし、内部で生成された文の潜在セマンティックスケッチを抽出する、主題固有の神経意味アライメントを学習する。
第2段階では、このスケッチを視覚的コンテキストと統合し、フリーフォーム生成のために凍結したマルチモーダル言語モデルを促す。
サイレント画像記述中に収集されたfMRIデータの実験により、提案手法はfMRIのみのベースラインとランダムなベースラインを一貫して上回ることを示した。
さらに、学習したセマンティック・トゥ・ランゲージ・プロジェクションは、対象者間で一般化可能であることを示し、対象者固有のニューラルアライメントと組み合わせることで、効果的な復号を可能にする。
これらの結果は、脳からテキストへのデコーディングのためのスケーラブルでモジュラーな方向をサポートするため、ニューラルネットワークが画像駆動以前のコンテンツを超えてセマンティックコンテンツを変調することを示している。
関連論文リスト
- fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Decoding Alignment [47.45203641583922]
本研究では,fMRI-to-gesture Restruction Network のトレーニングを可能にする新しいアプローチ textbffMRI2GES を提案する。
提案手法は,fMRI記録から直接表現的ジェスチャーを再構成できることを示す。
論文 参考訳(メタデータ) (2025-12-01T02:09:44Z) - fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding [30.02799445727658]
機能的MRI(fMRI)と言語を3段階の枠組みでブリッジする基礎モデルであるfMRI-LMを提案する。
ステージ1では、fMRIを言語一貫性空間に埋め込まれた離散トークンにマッピングする神経トークン化器を学習する。
ステージ2では、事前訓練されたLLMがfMRIトークンとテキストを共同でモデル化し、脳の活動が時間的に予測され言語的に記述されるシーケンスとして扱われる。
ステージ3では、ハイレベルなセマンティック理解を備えたfMRI-LMを実現するために、マルチタスク、マルチパラダイムのチューニングを行う。
論文 参考訳(メタデータ) (2025-11-24T20:26:59Z) - Neuro2Semantic: A Transfer Learning Framework for Semantic Reconstruction of Continuous Language from Human Intracranial EEG [11.531598524209969]
頭蓋内脳波(iEEG)記録から知覚音声の意味内容を再構築する新しい枠組みであるNeuro2Semanticを紹介する。
まず、LSTMベースのアダプタが、トレーニング済みのテキスト埋め込みとニューラルネットワークをアライメントし、次に、修正モジュールがこれらのアライメントされた埋め込みから直接、連続した自然なテキストを生成する。
Neuro2Semanticは、30分以内のニューラルデータで強力なパフォーマンスを達成し、ローデータ設定における最新の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-31T04:17:19Z) - sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。
本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文 参考訳(メタデータ) (2025-04-20T03:01:42Z) - BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - BrainLLM: Generative Language Decoding from Brain Recordings [77.66707255697706]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。