論文の概要: Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant
- arxiv url: http://arxiv.org/abs/2606.25181v1
- Date: Tue, 23 Jun 2026 21:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.147006
- Title: Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant
- Title(参考訳): 説明可能な支援者によるポーランド語話者の音素レベル誤認識スクリーニング
- Authors: Milosz Dudek, Daria Hemmerling, Kamil Kwarciak, Maciej Stroinski, Maria Pensko, Mateusz Kowalewski, Leonid Pavlovskyi, Sebastian Jurczak, Anna-Mariia Vitkovska, Zuzanna Miodonska, Natalia Mocko, Michal Krecichwost,
- Abstract要約: ポーランド語を話す子どもを対象に,シビルト代替に焦点をあてたスクリーニングパイプラインを提案する。
wav2vec2ベースのCTCトークン認識器で、アライメントベースのエラータイピングと、診断ではなくスクリーニングのためのテンプレート接地型介護者アシスタントを備えている。
- 参考スコア(独自算出の注目度): 1.5772135694192657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early identification of speech sound errors in children is often limited by access to specialists, motivating lightweight screening tools that can operate outside the clinic. We present a screening pipeline for Polish-speaking children focused on sibilant substitutions, coupling a wav2vec2-based CTC token recognizer with alignment-based error typing and a template-grounded caregiver assistant for screening, not diagnosis. On a held-out test set of 10 unseen children comprising 559 utterances, the recognizer achieves 88.7 percent exact sequence match. As a conservative screening proxy, we flag a mismatch when the system emits substitution-evidence bracketed tokens at the target segment, yielding 72.9 percent precision, 61.4 percent recall, F1 = 0.67, and a 2.7 percent false-alarm rate on target-correct items. We describe the assistant's safety boundaries and outline a clinician-in-the-loop validation plan for future deployment.
- Abstract(参考訳): 幼児の音声誤りの早期発見は、専門医へのアクセスによって制限されることが多く、クリニックの外で動作可能な軽量スクリーニングツールを動機付けている。
本稿では,ポーランド語を話す子どもを対象としたスクリーニングパイプラインを提案する。診断ではなく,アライメントに基づくエラータイピングと,テンプレートグラウンドの介護者アシスタントとを結合した,wav2vec2ベースのCTCトークン認識器である。
559発の発話からなる10人の未確認児の持久テストセットにおいて、認識者は88.7%の正確なシーケンスマッチを達成する。
保守的なスクリーニングプロキシとして、システムがターゲットセグメントに置換証拠の括弧を発行すると、72.9%の精度、61.4%のリコール、F1 = 0.67、および2.7%の偽アラームレートが生成されると、ミスマッチを通知する。
本稿では,このアシスタントの安全性境界について概説し,今後の展開に向けた臨床医のループ検証計画を概説する。
関連論文リスト
- Enhancing Clinician Decision-Making via Uncertainty-Aware Multi-Expert Fusion for Stroke Rehabilitation [0.32553561239735207]
臨床的判断に取って代わるのではなく、拡張するように設計されたエンジンであるxAARAを提示する。
xAARAは、タスク、ムーブメントフェーズ、ムーブメント品質のレベルを越えて、キャリブレーションされた不確実性と説明でARATアセスメントを返します。
105回のストロークサバイバー(788回の運動)では、xAARAは94.2%のタスク精度と81.3%の移動位相精度を達成した。
論文 参考訳(メタデータ) (2026-06-23T09:00:15Z) - Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function [10.918072285423706]
K-Functionは、正確なサブワードの書き起こし、客観的スコアリング、動作可能なフィードバックを組み合わせた統合フレームワークである。
Kids-WFSTはMySTで1.39%、Multitudesで8.61%の音素誤りを達成した。
論文 参考訳(メタデータ) (2025-07-03T08:05:02Z) - Localizing Moments of Actions in Untrimmed Videos of Infants with Autism Spectrum Disorder [5.2289135066938375]
乳児ビデオにおけるASD関連行動の同定を目的とした自己注意型TALモデルを提案する。
本研究は, 乳児の非トリミングビデオにおいて, エンド・ツー・エンドの時間的行動の局所化を初めて実施した症例である。
顔の70%の精度、顔の79%の精度、笑顔の72%、発声の65%を実現した。
論文 参考訳(メタデータ) (2024-04-08T20:31:27Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Cross-lingual Alzheimer's Disease detection based on paralinguistic and
pre-trained features [6.928826160866143]
本稿ではICASSP-SPGC-2023 ADReSS-M Challenge Taskについて述べる。
この課題は、アルツハイマー病の予測のために、どの音響特徴を一般化し、言語間で伝達できるかを検討することである。
我々は、openSmileツールキットとXLSR-53を用いた音響特性を用いてパラ言語的特徴を抽出する。
本手法は分類タスクの69.6%の精度と回帰タスクの4.788の根平均二乗誤差(RMSE)を実現する。
論文 参考訳(メタデータ) (2023-03-14T06:34:18Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。