論文の概要: LLM-Based Synthetic Ground Truth Generation for Audio-Based Emotion Classification via In-Context Learning
- arxiv url: http://arxiv.org/abs/2606.14784v2
- Date: Thu, 18 Jun 2026 08:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.503691
- Title: LLM-Based Synthetic Ground Truth Generation for Audio-Based Emotion Classification via In-Context Learning
- Title(参考訳): インテクスト学習による音声に基づく感情分類のためのLLMベース合成地中真実生成
- Authors: Qing Huang, Pooja Pol, Jianing Zhang,
- Abstract要約: 本稿では,VR環境におけるストリーミング音声データから感情関連合成地上真実を生成するための大規模言語モデル(LLM)に基づくエージェント推論ワークフローを提案する。
In-Context Learning (ICL) を用いて、ペア音声ベースのサンプルとその対応する転写のデモを行い、情報的かつ堅牢なインコンテキストプロンプトを構築する。
- 参考スコア(独自算出の注目度): 9.928781897312971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human states and interaction dynamics is a core goal of human-computer interaction (HCI). As interaction paradigms become more immersive, virtual reality (VR) has emerged as a powerful platform for studying collaborative work. In such settings, evaluating team collaboration states, including team performance and team resilience, requires continuous and reliable inference of latent team-level cognitive and affective states from multi-modal sensor data, such as speech signals. However, generating ground truth labels for these latent states remains challenging due to sensor-induced noise, contextual variability, and sparse expert annotations. Traditional self-reporting approaches provide only static and delayed measurements and are therefore insufficient for capturing dynamic team processes reflected in continuous speech data. In this work, we propose a large language model (LLM)-driven, agentic inference workflow for automated emotion-related synthetic ground truth generation from streaming speech data in multi-user VR environments. Leveraging the generalization capabilities of LLMs, we use In-Context Learning (ICL) with few-shot demonstrations of paired audio-based samples and their corresponding transcriptions. ICL tends to achieve task adaptation comparable to model fine-tuning while circumventing the computational overhead of parameter updates. To construct informative and robust in-context prompts, we adopt a retrieval-based selection strategy that dynamically identifies relevant audio demonstrations based on similarity in the acoustic feature space.
- Abstract(参考訳): 人間の状態と相互作用のダイナミクスを理解することは、人間とコンピュータの相互作用(HCI)のコアゴールである。
インタラクションパラダイムがより没入的になるにつれて、仮想現実(VR)はコラボレーション作業を研究するための強力なプラットフォームとして現れています。
このような設定では、チームのパフォーマンスやチームのレジリエンスなどを含むチームのコラボレーション状態を評価するには、音声信号などのマルチモーダルセンサーデータから潜在するチームレベルの認知状態と感情状態の連続的かつ信頼性の高い推測が必要である。
しかし、これらの潜伏状態に対する基底真理ラベルの生成は、センサによるノイズ、文脈変動性、スパース専門家アノテーションによって依然として困難である。
従来の自己報告アプローチは静的かつ遅延的な測定のみを提供しており、連続した音声データに反映される動的なチームプロセスのキャプチャには不十分である。
本研究では,マルチユーザVR環境における音声ストリーミングデータから感情関連合成真実の自動生成のための大規模言語モデル(LLM)に基づくエージェント推論ワークフローを提案する。
LLMの一般化機能を活用して、ペア音声ベースのサンプルとその対応する転写のデモを数回行ったインコンテキストラーニング(ICL)を用いて行う。
ICLはパラメータ更新の計算オーバーヘッドを回避しつつ、モデルの微調整に匹敵するタスク適応を達成する傾向にある。
情報的かつロバストなインコンテキストプロンプトを構築するために,音響特徴空間における類似性に基づいて関連する音声のデモを動的に識別する検索ベースの選択戦略を採用する。
関連論文リスト
- MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition [9.310155608815283]
モデルロバスト性は、継続的に発展する動的な能力として扱うことができると我々は主張する。
本研究では,インクリメンタルアップデートをシミュレートする実世界型連続学習カリキュラムを提案する。
論文 参考訳(メタデータ) (2026-06-12T13:50:09Z) - ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment [52.31881685769569]
ImmersiveTTSは環境コンテキストにシームレスに統合された自然な音声を生成する環境対応テキスト音声合成(TTS)モデルである。
本モデルは,マルチモーダル拡散変換器上に構築され,テキスト条件付き環境コンテキストでテキスト対応音声を融合する。
実験結果から,ImmersiveTTSは既存手法よりも自然性,知性,音声の忠実度が高いことがわかった。
論文 参考訳(メタデータ) (2026-05-29T07:58:54Z) - Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation [1.7523719472700858]
我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
論文 参考訳(メタデータ) (2025-12-14T12:29:49Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。