論文の概要: Speech-Driven End-to-End Language Discrimination towards Chinese Dialects
- arxiv url: http://arxiv.org/abs/2606.18584v1
- Date: Wed, 17 Jun 2026 01:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.949765
- Title: Speech-Driven End-to-End Language Discrimination towards Chinese Dialects
- Title(参考訳): 中国語方言に対する音声駆動型エンドツーエンド言語識別
- Authors: Fan Xu, Jian Luo, MingWen Wang, GuoDong Zhou,
- Abstract要約: 中国語方言における言語識別に対する音声駆動的特徴の有効性について検討する。
中国語の方言単語を予測するために,HMM-DNNに基づくエンドツーエンド音声認識モデルを設計する。
2つの標準中国語方言コーパスの評価は,提案手法の有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 17.68215217103399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language discrimination among similar languages, varieties, and dialects is a challenging natural language processing task. The traditional text-driven focus leads to poor results. In this paper, we explore the effectiveness of speech-driven features towards language discrimination among Chinese dialects. First, we systematically explore the appropriateness of speech-driven MFCC features towards CNN-based language discrimination. Then, we design an end-to-end speech recognition model based on HMM-DNN to predict Chinese dialect words. We adopt attention to extract the discriminative words related to different Chinese dialects. Finally, through a CNN, we combine the word-level embedding and the MFCC-based features. Evaluation of two benchmark Chinese dialect corpora shows the appropriateness and effectiveness of the proposed speech-driven approach to fine-grained Chinese dialect discrimination compared to the state-of-the-art methods.
- Abstract(参考訳): 類似言語、品種、方言の言語識別は、自然言語処理の課題である。
従来のテキスト駆動の焦点は、結果の低さにつながります。
本稿では,中国語方言における言語識別に対する音声駆動的特徴の有効性について検討する。
まず、CNNに基づく言語識別に対する音声駆動型MFCC機能の有効性を体系的に検討する。
そこで,HMM-DNNに基づくエンドツーエンド音声認識モデルを構築し,中国語の方言単語を予測する。
我々は、異なる中国語方言に関連する差別的な単語を抽出するために注意を払っている。
最後に、CNNを通じて、単語レベルの埋め込みとMFCCベースの機能を組み合わせる。
2つの標準中国語方言コーパスの評価は, 現状の方法と比較して, 粒度の細かい中国語方言の識別に対する音声によるアプローチの有効性と有効性を示している。
関連論文リスト
- Low-resource Language Discrimination Towards Chinese Dialects with Transfer learning and Data Augmentation [12.00948846037621]
我々は,移動学習とデータ拡張を併用した中国語方言識別フレームワークを開発した。
我々のモデルは2つのベンチマーク中国語方言コーパスで最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-06-17T01:46:41Z) - Towards Comprehensive Semantic Speech Embeddings for Chinese Dialects [29.35427502578411]
中国語と中国語の方言間の相互意味的アライメントを持つ音声表現を必要とする。
ASR(Automatic Speech Recognition)のみのデータを用いた音声エンコーダの訓練により,このような言語間セマンティックアライメントを実現する。
我々のベンチマーク、意味的整合した音声表現、音声と音声の検索評価は、将来の中国語方言音声-LLMの基盤となった。
論文 参考訳(メタデータ) (2026-01-12T07:30:51Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - PANDA -- Paired Anti-hate Narratives Dataset from Asia: Using an LLM-as-a-Judge to Create the First Chinese Counterspeech Dataset [3.8227015675440192]
現代標準中国語の流行にもかかわらず、中国語の対訳資源は事実上存在しない。
中国本土でヘイトスピーチと戦うことに焦点を当てたコーパスを紹介する。
論文 参考訳(メタデータ) (2025-01-01T01:56:32Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Improve Bilingual TTS Using Dynamic Language and Phonology Embedding [10.244215079409797]
本稿では,中国語の単言語話者からより標準の英語音声を取得するために,マンダリン・イングリッシュ・TSシステムを構築した。
言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。
論文 参考訳(メタデータ) (2022-12-07T03:46:18Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。