論文の概要: Titans-as-a-Layer: Test-Time Memory for Conversational Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2606.08573v1
- Date: Sun, 07 Jun 2026 11:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.27189
- Title: Titans-as-a-Layer: Test-Time Memory for Conversational Speech Emotion Recognition
- Title(参考訳): Titans-as-a-Layer:会話音声の感情認識のためのテスト時間記憶
- Authors: Daniel Chen, Qicong Hu, Yang Xiao, Ting Dang, Hong Jia,
- Abstract要約: テスト時ニューラルメモリは、大きなオーディオ言語モデルをバックボーンに残しながら、この不足したコンテキストを供給できるかどうかを調査する。
我々は,対話履歴を小さなニューラルメモリに書き込むための,プラグアンドプレイ型メモリ・アズ・ア・レイヤ(MAL)アダプタを導入し,オーディオトーケンに整合した残差更新として読み返す。
- 参考スコア(独自算出の注目度): 11.240427393015034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversational emotion depends on a speaker's usual vocal range and the emotional context established by previous utterances. Speech-language models provide strong pretrained acoustic and semantic representations, and can adapts them to SER labels via finetune, but this mechanism still missing per-dialogue state. We study whether test-time neural memory can supply this missing context while leaving the large audio language models (LALMs) backbone intact. Building on Titans, we introduce a plug-and-play Memory-as-a-Layer (MAL) adapter that writes dialogue history into a small neural memory and reads it back as an audio-token-aligned residual update, avoiding changes to the host model's token positions. Across different audio LLMs and emotion recognition datasets evaluations, our design improves SER performs across different evaluation metrics, supporting test-time memory as a residual contextual mechanism for conversational SER.
- Abstract(参考訳): 音声感情認識(SER)は、話者の通常の発声範囲と過去の発声によって確立された感情文脈に依存するが、発話レベルの分類として一般的に定式化される。
言語モデルは、強い事前訓練された音響的および意味的な表現を提供し、それらをファインチューンを介してSERラベルに適応させることができるが、このメカニズムは対話ごとの状態を欠いている。
テスト時ニューラルメモリは、大きなオーディオ言語モデル(LALM)のバックボーンをそのまま残しながら、この不足したコンテキストを供給できるかどうかを検討する。
Titans上に構築されたMALアダプタは,対話履歴を小さなニューラルメモリに書き込むことで,音声に整合した残差更新として読み取ることで,ホストモデルのトークン位置の変更を回避する。
音声LLMと感情認識データセットの相違により、SERは様々な評価指標で性能が向上し、会話型SERの残留文脈機構としてテスト時間メモリがサポートされた。
関連論文リスト
- Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition [58.25449304752214]
生音声が既に利用可能である場合に、明示的な音響的手がかりが根拠となるかどうかを考察する。
標準化されたeGeMAPSパラ言語特徴集合から6つの解釈可能な音響概念トークンを導出する。
調整されたトークンは平均リコール(UAR)を改善するが、シャッフル、競合、破損したトークンはパフォーマンスを低下させる。
トークンのみの介入は、ALMに基づく感情計算において、オーディオグラウンドドキューの使用、堅牢性、解釈可能性を調べるための実用的な方法である、と我々は主張する。
論文 参考訳(メタデータ) (2026-06-05T14:26:06Z) - Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model [0.0]
本研究では,Mel-Frequency Cepstral Coefficients (MFCCs) を用いた音声感情認識システムと深層学習LSTMニューラルネットワークを提案する。
RBFカーネルを備えたサポートベクトルマシン(SVM)は、98%の精度で古典的なベースラインとして機能し、LSTMモデルは99%の精度で検証された。
論文 参考訳(メタデータ) (2026-04-16T06:53:04Z) - Detecting Mental Manipulation in Speech via Synthetic Multi-Speaker Dialogue [12.181747090385612]
心的操作は、他者に影響を与えるか、搾取するために、言語を戦略的に利用することである。
音声対話における心的操作検出に関する最初の研究について述べる。
少数ショットの大きな音声言語モデルと人間のアノテーションを用いて、モーダリティが検出精度と知覚にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2026-01-13T09:02:08Z) - Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models [22.710371114925763]
音声基礎モデル(SFM)は、中間テキスト表現をバイパスし、生音声から音声言語の直接処理を可能にする。
この能力により、SFMは入力音声信号に埋め込まれた豊富なパラ言語的バリエーションに露出し、潜在的に応答することができる。
本研究では,音質の合成を特徴とする新たな並列データセットを提案する。
論文 参考訳(メタデータ) (2025-10-29T14:44:44Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - CoMPM: Context Modeling with Speaker's Pre-trained Memory Tracking for
Emotion Recognition in Conversation [0.0]
予め訓練されたメモリモジュール(PM)と組み合わせたコンテキスト埋め込みモジュール(CoM)を導入する。
事前学習した記憶は感情認識の最終的な精度を著しく向上させることを示す。
マルチパーティデータセット(MELD, EmoryNLP)とダイアドパーティデータセット(IEMOCAP, DailyDialog)の両方で実験を行った。
論文 参考訳(メタデータ) (2021-08-26T07:45:09Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。