論文の概要: Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2606.07309v1
- Date: Fri, 05 Jun 2026 14:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.77792
- Title: Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition
- Title(参考訳): 音声認識のための音声モデルにおける音響キューアライメント
- Authors: Iosif Tsangko, Andreas Triantafyllopoulos, Björn W. Schuller,
- Abstract要約: 生音声が既に利用可能である場合に、明示的な音響的手がかりが根拠となるかどうかを考察する。
標準化されたeGeMAPSパラ言語特徴集合から6つの解釈可能な音響概念トークンを導出する。
調整されたトークンは平均リコール(UAR)を改善するが、シャッフル、競合、破損したトークンはパフォーマンスを低下させる。
トークンのみの介入は、ALMに基づく感情計算において、オーディオグラウンドドキューの使用、堅牢性、解釈可能性を調べるための実用的な方法である、と我々は主張する。
- 参考スコア(独自算出の注目度): 58.25449304752214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-following audio language models (ALMs) can be augmented with explicit acoustic cues, yet it remains unclear whether such cues are used in a grounded way when the raw audio is already available. We study this question in speech emotion recognition (SER) by deriving six interpretable acoustic concept tokens from the standardised eGeMAPS paralinguistic feature set. These tokens summarise energy, pitch, dynamics, brightness, formants, and voice quality, and are appended to the textual prompt while the audio input is kept unchanged. Across the widely used FAU-Aibo and IEMOCAP benchmarks, aligned tokens improve unweighted average recall (UAR), whereas shuffled, conflicting, or corrupted tokens reduce performance relative to aligned tokens and shift confusions toward neutral. Importantly, predictions do not collapse under strong token perturbations, suggesting that the models are sensitive to the symbolic cue channel but remain partly anchored to the audio signal. We argue that token-only interventions provide a practical way to probe audio-grounded cue use, robustness, and interpretability in ALM-based affective computing.
- Abstract(参考訳): 指示追従型音声言語モデル(ALM)は、明示的な音響的手がかりで拡張することができるが、生音声が既に利用可能である場合に、そのような手がかりが接地的に使用されているかどうかは不明である。
本研究では, 音声感情認識(SER)において, 標準化されたeGeMAPSパラ言語特徴集合から6つの解釈可能な音響概念トークンを導出した。
これらのトークンは、エネルギー、ピッチ、ダイナミクス、明るさ、ホルマント、音声品質を要約し、音声入力が変更されていない間にテキストプロンプトに付加される。
広く使用されているFAU-AiboとIEMOCAPベンチマークでは、整列トークンは非重み付き平均リコール(UAR)を改善する一方、シャッフル、コンフリクト、あるいは破損トークンは整列トークンに対するパフォーマンスを低下させ、中性への混乱を緩和する。
重要なことは、強いトークン摂動の下では予測は崩壊せず、モデルがシンボルキューチャネルに敏感であるが、部分的に音声信号に固定されていることを示唆している。
トークンのみの介入は、ALMに基づく感情計算において、オーディオグラウンドドキューの使用、堅牢性、解釈可能性を調べる実用的な方法である、と我々は主張する。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - Exploring Token-Space Manipulation in Latent Audio Tokenizers [33.022035588157614]
token-space Editing (LATTE) のための遅延オーディオトケナイザを提案する。
LATTEは学習可能な潜在トークンの固定セットをオーディオ特徴シーケンスに追加し、量子化と復号化のためにこれらのトークンのみを保持する。
提案手法は,低ビットレート音声符号化設定における競合的再構成品質を保っていることを示す。
論文 参考訳(メタデータ) (2026-05-11T19:58:14Z) - Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Frontend Token Enhancement for Token-Based Speech Recognition [50.35062963870211]
音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。
本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。
入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
論文 参考訳(メタデータ) (2026-02-04T05:02:15Z) - Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection [23.695892348165497]
音声ディープフェイク検出(SDD)は、与えられた音声信号が本物か合成的に生成されたかを特定することに焦点を当てる。
既存の音声大言語モデル(LLM)ベースの手法は、しばしば意味論的に相関した手がかりに偏っている。
聴覚知覚強調音声大言語モデル(SDD-APALLM)を用いたSDDについて紹介する。
論文 参考訳(メタデータ) (2026-01-30T15:16:43Z) - Autoregressive Speech Enhancement via Acoustic Tokens [12.77742493025067]
音声強調のための音響トークンの性能について検討し,新しいトランスデューサに基づく自己回帰アーキテクチャを提案する。
VoiceBankとLibri1データセットの実験では、話者識別の保存の観点から、音響トークンがセマンティックトークンより優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-17T06:32:22Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。