論文の概要: Prior over Evidence: Stereotype-Driven Diagnosis in LLM-Based L2 Pronunciation Feedback
- arxiv url: http://arxiv.org/abs/2606.15325v1
- Date: Sat, 13 Jun 2026 14:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.35593
- Title: Prior over Evidence: Stereotype-Driven Diagnosis in LLM-Based L2 Pronunciation Feedback
- Title(参考訳): LLMに基づくL2発音フィードバックにおけるステレオタイプ駆動診断
- Authors: Rong Wang, Kun Sun,
- Abstract要約: 第二言語(L2)英語学習における発音フィードバックのために,大規模言語モデルがますます普及している。
このことは、彼らの診断は事前訓練よりむしろ、供給された音声証拠に基礎を置いていると仮定する。
この仮定は、6つのL1背景、3つのオーディオ対応LLM、4つの発音次元、5つの証拠条件にまたがる1,800のL2-Arctic utteranceで検証される。
- 参考スコア(独自算出の注目度): 23.77480663886995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are increasingly deployed for written pronunciation feedback in second-language (L2) English learning, under the assumption that their diagnoses are grounded in the supplied speech evidence rather than in priors from pretraining. This assumption is tested on 1,800 L2-Arctic utterances spanning six L1 backgrounds, three audio-capable LLMs, four pronunciation dimensions, and five evidence conditions ranging from a text-only baseline to numeric acoustic features and raw audio. Each (utterance x model x condition x dimension) cell is scored on three metrics: Rating Accuracy (RA) against gold labels, Evidence Coherence (EC) assessing internal consistency without ground truth, and Grounded Correctness (GC) evaluated against gold evidence. Results show three findings across models. First, rating accuracy and grounded reasoning decouple: 39.6% of judged cells contain internally coherent reasoning that supports a wrong rating, against only 15.8% where the reasoning supports a correct rating. Second, phoneme-level feedback converges to a fixed inventory of L2-English difficulty phones that recurs across all six L1 backgrounds and all evidence conditions. Third, acoustic evidence improves the rating only when the supplied feature directly probes the target dimension: textualised F0 range raises pitch-variation grounding from (0.18-0.19) to (0.45-0.62) across all three models, while stress and phoneme correctness, which require target-to-realisation alignment, remain ungrounded. The same audio waveform without textualised F0 values does not reproduce this improvement. These findings indicate that current general-purpose LLMs are more reliable as verbalisers of externally computed pronunciation evidence than as standalone diagnostic engines.
- Abstract(参考訳): 第二言語 (L2) の英語学習における発音フィードバックのための大規模言語モデルは, 事前学習の事前訓練ではなく, 提供された音声証拠にその診断が基礎を置いていることを前提として, ますます多く展開されている。
この仮定は、6つのL1背景、3つのオーディオ対応LLM、4つの発音次元、テキストのみのベースラインから数値音響特徴、生音声まで5つのエビデンス条件にまたがる1,800L2-Arctic utteranceで検証される。
それぞれの(発話 x モデル x 条件 x 次元)セルは、金ラベルに対するレーティング精度(RA)、内部の整合性を評価するエビデンス・コヒーレンス(EC)、金の証拠を評価するグラウンドド・コヒーレンス(GC)の3つの指標に基づいてスコアされる。
結果はモデル全体で3つの結果を示した。
39.6%の細胞は、正しい評価を支持する15.8%に対して、間違った評価を支持する内部的一貫性のある推論を含んでいる。
第二に、音素レベルのフィードバックは、6つのL1背景とすべての証拠条件をまたいで再帰するL2英語難易度電話機の固定在庫に収束する。
テキスト化されたF0範囲は、3つのモデル全てでピッチ偏差(0.18-0.19)から(0.45-0.62)まで上昇し、一方、目標から現実へのアライメントを必要とする応力と音素の正しさは未定のままである。
テキスト化されたF0値のない同じ音声波形は、この改善を再現しない。
これらの結果から,現在の汎用LPMは,独立した診断エンジンよりも,外部計算による発音証拠の動詞として信頼性が高いことが示唆された。
関連論文リスト
- Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models [54.041320081289996]
音声対応大言語モデル(ALLM)における不確実性推定に関する最初の系統的研究について述べる。
予測エントロピー、長さ正規化エントロピー、意味エントロピー、個別意味エントロピー、P(True)を含む5つの代表的な手法をベンチマークする。
まず、意味レベルと検証ベースの手法は、一般的な音声推論ベンチマークにおけるトークンレベルベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-04-28T12:56:22Z) - All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation [45.45465533352999]
大規模オーディオ言語モデルは、音声と音声のベンチマークで一貫したパフォーマンス向上を示すが、高いスコアは真の聴覚知覚を反映していないかもしれない。
本稿では,テキストと一般知識のみから応答可能性を測定するテキスト先行法と,音響信号への実際の依存度を評価するオーディオ依存法という,2つの軸を用いた診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-27T12:25:18Z) - GSAR: Typed Grounding for Hallucination Detection and Recovery in Multi-Agent LLMs [0.0]
クレームを4方向のタイポロジー(接地,非接地,矛盾,相補的)に分割する基盤性フレームワークを提案する。
GSARは、明示的な計算予算の下で、結合された回復を伴うエビデンス型スコアリングを結合した最初の基盤フレームワークである。
論文 参考訳(メタデータ) (2026-04-25T16:20:28Z) - Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers [0.0]
HuBERTをベースとした5言語890話者を対象にした音韻的特徴部分空間に基づく難聴度評価のためのトレーニングフリーフレームワーク。
12言語および5言語にまたがる25言語話者の分析(パーキンソン病、脳性麻痺、ALSダウン症候群、脳卒中)
代表標本における言語間プロファイル形状と安定性のクロスバックボーン
論文 参考訳(メタデータ) (2026-04-23T14:12:27Z) - DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects [6.107850985025956]
本稿では,50の英語方言における偽情報検出のための最初のベンチマークであるDIA-HARMを提案する。
人間による方言の含有量は1.4-3.6%減少し、一方でAI生成された内容は安定している。
私たちはDIA-HARMフレームワーク、D3コーパス、評価ツールをリリースします。
論文 参考訳(メタデータ) (2026-04-07T01:43:48Z) - Membership Inference Attacks against Large Audio Language Models [50.84901010528239]
大規模音声言語モデル(LALM)のMIA評価について述べる。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,一般的な音声データセットがほぼ完璧な列車/テスト分離性を示すことを示す。
以上の結果から, LALM検査の基準基準が確立された。
論文 参考訳(メタデータ) (2026-03-30T12:45:28Z) - How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation [97.0235251827591]
大規模言語モデル (LLM) は,Large Audio Language Models (LALM) の知識バックボーンとして広く利用されている。
テキストのみの事前学習によって符号化される聴覚知識の量と、それが下流のパフォーマンスに与える影響について検討する。
その結果,家族間で聴覚知識が大きく異なり,テキストのみの結果が音響性能と強く相関していることが判明した。
論文 参考訳(メタデータ) (2026-03-19T17:50:07Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning [0.0]
LLM(Large Language Models)は目覚ましい能力を示しているが、低リソース言語(LRL)のパフォーマンスは、データ不足と事前トレーニングの過小評価による遅延が多い。
本稿では,新規かつ効率的な微調整法であるTLIについて紹介する。
論文 参考訳(メタデータ) (2025-06-18T12:35:53Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。