Fugu-MT 論文翻訳(概要): Semi-Supervised Speech Confidence Detection using Pseudo-Labelling and Whisper Embeddings

論文の概要: Semi-Supervised Speech Confidence Detection using Pseudo-Labelling and Whisper Embeddings

arxiv url: http://arxiv.org/abs/2606.16505v1
Date: Mon, 15 Jun 2026 10:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.366673
Title: Semi-Supervised Speech Confidence Detection using Pseudo-Labelling and Whisper Embeddings
Title（参考訳）: Pseudo-LabellingとWhisper Embeddingsを用いた半監督音声信頼度検出
Authors: Adam Wynn, Jingyun Wang, Xiangyu Tan,
Abstract要約: 本研究では,Whisperエンコーダの埋め込みと人間工学的特徴を統合することで,話者の信頼度を検出する新しい枠組みを提案する。このフレームワークは, ピッチ, ボリューム, 発話速度, 拡散とストレスの存在など, 従来の音声特徴とWhisper埋め込みを組み合わせ, これらの表現を融合させ, 全体の75%の精度を達成するために, 共同認識機構を用いる。
参考スコア（独自算出の注目度）: 3.254101603900329
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Understanding speaker confidence is crucial in educational settings, as it can enhance personalised feedback and improve learning outcomes. This study introduces a novel framework for detecting speaker confidence by integrating human-engineered features with embeddings from the Whisper encoder. To address data limitations, a pseudo-labelling technique is employed to expand the labelled dataset, allowing the model to learn from both human-annotated and model-generated labels. The framework combines traditional speech features including pitch, volume, rate of speech, and the presence of disfluencies and stress, with Whisper embeddings, and uses a co-attention mechanism to fuse these representations and achieve an overall accuracy of 75%. This study contributes to advancing speech analysis, enabling applications that support personalised learning and speaking skill development.
Abstract（参考訳）: 個人化されたフィードバックを高め、学習結果を改善することができるため、教育環境において話者の信頼を理解することが重要である。本研究では,Whisperエンコーダの埋め込みと人間工学的特徴を統合することで,話者の信頼度を検出する新しい枠組みを提案する。データ制限に対処するため、ラベル付きデータセットを拡張するために擬似ラベリング技術が採用され、人間の注釈付きラベルとモデル生成ラベルの両方からモデルを学習することができる。このフレームワークは, ピッチ, ボリューム, 発話速度, 拡散とストレスの存在など, 従来の音声特徴とWhisper埋め込みを組み合わせ, これらの表現を融合させ, 全体の75%の精度を達成するために, 共同認識機構を用いる。本研究は音声分析の進歩に寄与し,個人化学習と発話スキル開発を支援するアプリケーションの実現に寄与する。

関連論文リスト

Koopman Regularized Deep Speech Disentanglement for Speaker Verification [6.659299099827954]
DKSD-AE(Deep Koopman Speech Disentanglement Autoencoder) 本稿では,複数ステップのKoopman演算子学習モジュールとインスタンス正規化を組み合わせた構造化オートエンコーダを提案する。この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
論文参考訳（メタデータ） (2026-03-05T17:30:18Z)
Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。 SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文参考訳（メタデータ） (2023-11-04T04:54:17Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Improving on-device speaker verification using federated learning with privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文参考訳（メタデータ） (2020-08-06T13:37:14Z)
Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文参考訳（メタデータ） (2020-04-13T17:16:56Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。