Fugu-MT 論文翻訳(概要): Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

論文の概要: Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

arxiv url: http://arxiv.org/abs/2606.14788v1
Date: Wed, 10 Jun 2026 21:43:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:32.155229
Title: Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening
Title（参考訳）: 神経変性スクリーニングのためのマルチモーダルLDMによる音響特徴とテキストの統合
Authors: Qingfeng Zhang, Yuanxiong Guo, Yanmin Gong,
Abstract要約: NeurMLLMは神経変性疾患のステージングのための効率的なフレームワークである。 NeurMLLMは、視覚変換器を用いた音声データのスペクトログラムとメル周波数ケプストラム係数を符号化する。その表現を、大きな言語モデルの埋め込み空間に投影する。
参考スコア（独自算出の注目度）: 5.760251413371908
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Voice-based screening offers a scalable and non-invasive way to assess neurodegenerative diseases such as Alzheimer's disease (AD) and Parkinson's disease (PD), but their staging remains challenging due to the difficulty of integrating heterogeneous data. This paper presents NeurMLLM, an efficient multimodal generative framework for neurodegenerative disease staging. NeurMLLM first encodes the spectrograms and Mel-frequency cepstral coefficients of audio data with vision transformers and projects their representations into the embedding space of a large language model (LLM), where they are concatenated with transcript and demographic instruction tokens as a single unified sequence. The LLM is then instruction-tuned via Low-Rank Adaptation using task prompts to autoregressively predict a constrained label token, enabling a generative classification. By evaluating on the Bridge2AI-Voice dataset for fine-grained staging of AD and PD, we observe that NeurMLLM achieves strong performance, consistently outperforming classical machine learning methods and existing LLM-based approaches. The results show the high potential of multimodal LLMs in neurodegenerative disease staging, improving staging accuracy and supporting accessible deployment.
Abstract（参考訳）: 音声ベースのスクリーニングは、アルツハイマー病(AD)やパーキンソン病(PD)などの神経変性疾患を評価するためのスケーラブルで非侵襲的な方法を提供するが、異種データの統合が困難であるため、そのステージングは依然として困難である。本稿では,神経変性疾患ステージングのための効率的なマルチモーダル生成フレームワークNeurMLLMを提案する。 NeurMLLMはまず、視覚変換器を用いて音声データのスペクトルとメル周波数ケプストラム係数を符号化し、その表現を大言語モデル(LLM)の埋め込み空間に投影する。 LLMは、タスクプロンプトを使用して、制約付きラベルトークンを自動回帰予測し、生成的分類を可能にする。 ADとPDのきめ細かいステージングのためのBridge2AI-Voiceデータセットを用いて評価することにより、NeurMLLMは、従来の機械学習手法と既存のLLMベースのアプローチを一貫して上回る、強力なパフォーマンスを実現する。以上の結果から, 神経変性疾患のステージング, ステージング精度の向上, アクセス可能なデプロイメント支援において, マルチモーダルLSMの可能性が示唆された。

関連論文リスト

Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification [14.247959730104085]
マルチモーダル大言語モデル(MLLM)は、医療画像解析の分野で前例のない応用の波を引き起こしている。しかし、医学画像分類では、最先端の医療MLLMは従来のディープラーニングモデルと比べて一貫して性能が劣っている。本稿では、3つの代表的な画像分類データセットにまたがる14のオープンソース医療MLLMについて広範な実験を行った。
論文参考訳（メタデータ） (2026-04-09T15:07:26Z)
Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models [43.46006663176283]
本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
論文参考訳（メタデータ） (2025-12-26T10:23:30Z)
A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
Multi-Task Learning with Feature-Similarity Laplacian Graphs for Predicting Alzheimer's Disease Progression [13.637114355949356]
アルツハイマー病(英語: Alzheimer's Disease, AD)は、高齢化にともなう神経変性疾患である。我々はMTL(Multi-Tusk Learning)フレームワークを提案し、MTL-FSL(Multi-Task Learning)と呼ばれる特徴類似性ラプラシアングラフを提案する。我々のフレームワークは、特徴間の時間変化関係を明示的にモデル化する新しい特徴類似ラプラシアン(FSL)ペナルティを導入している。
論文参考訳（メタデータ） (2025-10-12T03:55:42Z)
Leveraging LLMs for Multimodal Retrieval-Augmented Radiology Report Generation via Key Phrase Extraction [0.0]
本稿では,多モーダル検索と大規模言語モデルを活用した検索拡張生成手法を提案する。本手法は, LLMを用いて放射線学報告から重要なフレーズを抽出し, 本質的な診断情報に効果的に焦点をあてる。我々は、MIMIC-CXRデータセットに対するアプローチを評価し、CheXbertメトリクスと競合するRadGraph F1メトリクスの最先端結果を得た。
論文参考訳（メタデータ） (2025-04-10T03:14:01Z)
LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文参考訳（メタデータ） (2025-03-10T16:05:40Z)
Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。 ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文参考訳（メタデータ） (2024-10-21T07:19:19Z)
Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。 MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。