論文の概要: BranchShine: Compact Raw-Audio-to-IPA Transcription with a RoPE E-Branchformer Encoder
- arxiv url: http://arxiv.org/abs/2606.22824v1
- Date: Mon, 22 Jun 2026 04:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:22:35.857287
- Title: BranchShine: Compact Raw-Audio-to-IPA Transcription with a RoPE E-Branchformer Encoder
- Title(参考訳): BranchShine: RoPE E-BranchformerエンコーダによるコンパクトなRaw-Audio-to-IPA転写
- Authors: Nikhil Navas, Sergio Chevtchenko, Talisson Damiao, Saeed Afshar,
- Abstract要約: BranchShineは、軽量な畳み込みフロントエンドと19ブロックのRoPE E-Branchformerエンコーダを備えた生オーディオ-IPAモデルである。
16,660発の多言語テストセットで41の言語ラベルをカバーし、BranchShineは9.19%のホワイトスペース非感受性IPA文字誤り率を得る。
- 参考スコア(独自算出の注目度): 0.8999666725996976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-to-IPA transcription is useful when the desired output is pronunciation rather than orthographic text, but competitive multilingual systems are often large and evaluation is sensitive to normalization choices. This paper presents BranchShine, a 33M-parameter raw-audio CTC recognizer with a lightweight convolutional front end and a 19-block RoPE E-Branchformer encoder. We find that BranchShine provides a compact and competitive operating point for IPA transcription under matched normalization and scoring. On a 16,660-utterance multilingual test set covering 41 language labels, BranchShine obtains 9.19% whitespace-insensitive IPA character error rate, compared with 9.78% for the 575.00M-parameter PhoneticXEUS baseline. A secondary child speech reading analysis shows a complementary operating profile: BranchShine is more conservative on incorrect readings, while Whisper-Medium is stronger on exact acceptance of correct readings. Overall, the results indicate that a compact raw-audio-to-IPA model can approach much larger baselines on character-level IPA transcription.
- Abstract(参考訳): 音声からIPAへの書き起こしは、出力が正書法ではなく発音である場合に有用であるが、競合する多言語システムは多く、評価は正規化の選択に敏感である。
本稿では,軽量な畳み込みフロントエンドと19ブロックのRoPE E-Branchformerエンコーダを備えた33Mパラメトリック生オーディオCTC認識器であるBranchShineについて述べる。
BranchShineは、一致した正規化とスコアリングの下で、IPA転写のためのコンパクトで競争力のある操作ポイントを提供する。
16,660発の多言語テストセットで41の言語ラベルをカバーし、BranchShineは575.00MのPhonticXEUSベースラインの9.78%と比較して、9.19%のホワイトスペース非感受性IPA文字誤り率を得た。
セカンダリチャイルド・チャイルド・リーディング・アナリティクス(英語版)の分析では、ブランチ・シャイン(英語版)は誤った読みにおいてより保守的であり、ウィスパー・メジウム(英語版)は正しい読みの正確な受容においてより強力である。
その結果,コンパクトな生音声-IPAモデルが文字レベルのIPA転写において,はるかに大きなベースラインに近づく可能性が示唆された。
関連論文リスト
- Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal [10.584132982823883]
自動発音評価の訓練は、しばしばラベル付き学習者エラーや収集にコストがかかる非ネイティブコーパスに依存している。
そこで本研究では,教師なしあるいは軽微な校正を行うために,ネイティブ音声リソースのみを訓練した軽量なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-18T08:04:16Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech [7.391392949962331]
Phonikudは、完全に特定されたIPA転写を出力する軽量でオープンソースのHebrew grapheme-to-phoneme(G2P)システムである。
我々は、ヘブライ語G2Pのベンチマークとして、IPAアノテーションで転写されたヘブライ語音声のILSpeechデータセットをコントリビュートする。
以上の結果から,Phonikud G2P変換はヘブライ語からの音素を従来手法よりも精度良く予測できることがわかった。
論文 参考訳(メタデータ) (2025-06-14T02:16:38Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding [5.697227044927832]
音声対応テキストエンコーダを用いて任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。
テキストエンコーダは,G2Pモデルを用いてテキストを音素に変換し,代表音素ベクトルを用いた埋め込みに変換する。
実験結果から, この手法は, Libriphrase のハードデータセット上での最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2023-08-12T05:41:15Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。