論文の概要: The Lipreading Gap: Do VSR Models Perceive Visual Speech Like Human Lipreaders?
- arxiv url: http://arxiv.org/abs/2606.07435v2
- Date: Mon, 08 Jun 2026 10:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.079755
- Title: The Lipreading Gap: Do VSR Models Perceive Visual Speech Like Human Lipreaders?
- Title(参考訳): リップリーディングギャップ:VSRモデルは人間のリップリーダーのような視覚的スピーチを認識するか?
- Authors: Rishabh Jain, Naomi Harte,
- Abstract要約: 視覚音声認識モデルは、今や人間のリップリーダーをベンチマークで上回っている。
単語, 文字, 音素, 音素レベル測定値を用いて, 3つのVSRシステムと人間のベースラインを比較した。
我々の研究は、視覚的な特徴を意味のある単語に結び付けるのに失敗し、視覚的な知覚よりも、学習データからの学習手段に主に依存していることを示します。
- 参考スコア(独自算出の注目度): 14.788453263873444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual speech recognition (VSR) models now surpass human lipreaders on benchmarks, but do such gains establish human-like visual speech perception? To explore this, we compare three VSR systems with human baselines on the MaFI word-level lipreading dataset using word, character, phoneme, and viseme-level metrics. Although models achieve higher overall accuracy, they succeed and fail on different words than humans. A text-only n-gram baseline given only a few initial phonemes rivals human lipreading. VSR word-level errors are consistently better explained by training word frequency than by the visual informativeness of words. Viseme accuracies, confusion matrices and human-model correlations further show that models gain most on visemes humans find hardest, and show much weaker dependence on visual clarity. Our work demonstrates that VSR systems rely primarily on language cues from training data rather than visual perception, failing to bind visual features into meaningful words.
- Abstract(参考訳): 視覚音声認識(VSR)モデルは、今や人間のリップリーダーをベンチマークで上回っている。
そこで本研究では,3つのVSRシステムと,単語,文字,音素,およびビセメレベルのメトリクスを用いて,MaFIワードレベルリップリーディングデータセットのベースラインを比較した。
モデルは全体的な精度が高いが、成功し、人間とは異なる単語で失敗する。
テキストのみのn-gramベースラインは、人間のリップリーディングと競合するいくつかの初期音素のみを付与する。
VSRの単語レベルの誤りは、単語の視覚的情報性よりも、訓練された単語頻度によって一貫して説明される。
ヴィゼムの精度、混乱行列、人間モデル相関は、モデルが人間が最も苦しむヴィゼムにおいて最も多くを得ることを示すことを示し、視覚的明瞭度へのより弱い依存を示す。
我々の研究は、視覚的な特徴を意味のある単語に結び付けるのに失敗し、視覚的な知覚よりも、学習データからの学習手段に主に依存していることを示します。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - The Visual Iconicity Challenge: Evaluating Vision-Language Models on Sign Language Form-Meaning Mapping [1.5767445615203355]
ビジュアル・イコニシティ・チャレンジ(Visual Iconicity Challenge)は、視覚言語モデルを評価するための心理言語学的尺度である。
オランダの手話におけるゼロおよび少数ショット設定において,13の最先端のVLMを評価した。
より強い音韻形式予測モデルでは、人間の象徴性判断と相関する。
論文 参考訳(メタデータ) (2025-10-09T17:21:59Z) - VALLR: Visual ASR Language Model for Lip Reading [28.561566996686484]
リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。
視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。
まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。
この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
論文 参考訳(メタデータ) (2025-03-27T11:52:08Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。