論文の概要: Perceptual compensation for tonal context in self-supervised speech models
- arxiv url: http://arxiv.org/abs/2606.17835v1
- Date: Tue, 16 Jun 2026 12:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.417871
- Title: Perceptual compensation for tonal context in self-supervised speech models
- Title(参考訳): 自己教師型音声モデルにおける声調文脈の知覚的補償
- Authors: James Kirby, Ioana Krehan, Michele Gubian,
- Abstract要約: マンダリンASRのモデルと自己教師付き事前学習モデルとの組込み類似性および探索出力を比較した。
純粋に事前訓練されたモデルの埋め込み類似性には補償の証拠は見つからなかった。
探索型分類器は, 分類の階層的改善に加えて, 補償の証拠がいくつか示されたが, 孤立した試験音節上での人間の演奏の再現には至らなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the extent to which the wav2vec2.0 architecture exhibits evidence of compensation for phonological context. We conducted a pseudo-replication of a perceptional compensation experiment on Mandarin Chinese tones, and compared the embedding similarities and probing classifier outputs between a purely self-supervised pre-trained model and a model fine-tuned for Mandarin ASR. No evidence of compensation was found in the embedding similarities of the purely pre-trained model. Probing classifiers showed some evidence of compensation in addition to the expected layer-wise improvements in categorization, but failed to replicate human performance on isolated test syllables. Our findings contrast with previous reports of sensitivity to phonological structure emerging through pre-training alone, and suggest that supervised objectives may be necessary to encourage the abstraction of at least some types of phonological regularities.
- Abstract(参考訳): 本研究では,wav2vec2.0アーキテクチャが音韻的文脈に対する補償の証拠であることを示す。
マンダリン中国語の音色に対する知覚的補償実験の擬似レプリケーションを行い, 自己教師付き事前学習モデルとマンダリンASRの微調整モデルとの組込み類似度と分類器出力を比較した。
純粋に事前訓練されたモデルの埋め込み類似性には補償の証拠は見つからなかった。
探索型分類器は, 分類の階層的改善に加えて, 補償の証拠がいくつか示されたが, 孤立した試験音節上での人間の演奏の再現には至らなかった。
本研究は, 事前訓練単独で音韻構造に対する感受性を示唆する以前の報告と対比し, 少なくともある種の音韻規則の抽象化を促進するためには, 指導的目的が必要である可能性が示唆された。
関連論文リスト
- Taming the Centaur(s) with LAPITHS: a framework for a theoretically grounded interpretation of AI performances [0.0]
LAPITHS(Language Model Analysis through Paradigm Grounded Interpretations of Theses about Human likenesS)というフレームワークを導入する。
我々は、CENTAURのようなモデルによって先導されたいくつかの主要な主張が、人工認知の統一モデルとして提案され、理論的または経験論的に正当化されていないことを示すためにこれを使用する。
論文 参考訳(メタデータ) (2026-04-30T14:29:50Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。
心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-06-21T15:58:22Z) - Unleashing the power of Neural Collapse for Transferability Estimation [42.09673383041276]
よく訓練されたモデルは神経崩壊の現象を示す。
本稿では、転送可能性推定のためのFair Collapse(FaCe)と呼ばれる新しい手法を提案する。
FaCeは、画像分類、セマンティックセグメンテーション、テキスト分類など、さまざまなタスクにおける最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-10-09T14:30:10Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。