論文の概要: Deep Learning-Based Sign Language Recognition from Videos and Cross-Lingual Translation to Indian Vernaculars
- arxiv url: http://arxiv.org/abs/2606.22494v1
- Date: Sun, 21 Jun 2026 13:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:55:21.804869
- Title: Deep Learning-Based Sign Language Recognition from Videos and Cross-Lingual Translation to Indian Vernaculars
- Title(参考訳): ビデオからの深層学習に基づく手話認識とインド語の言語間翻訳
- Authors: Chandranath Adak, Ramesh Nandipalli,
- Abstract要約: 手話は、世界的な聴覚障害と難聴者コミュニティにとって、コミュニケーションの第一の手段である。
本稿では,短い手話ビデオクリップを英語の単語ラベルに分類する2段階のディープラーニングパイプラインを提案する。
予測された英語のラベルをヒンディー語、テルグ語、ベンガル語に翻訳する。
- 参考スコア(独自算出の注目度): 0.11199585259018456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is a primary mode of communication for the global deaf and hard-of-hearing community, yet automated tools that recognize sign gestures from video and translate them into natural language text remain limited, particularly for low-resource Indian languages. We present a two-stage deep learning pipeline that (i) classifies short sign language video clips into English word labels using a fine-tuned VideoMAE video transformer, and (ii) translates the predicted English label into Hindi, Telugu, and Bengali using Meta AI's No Language Left Behind (NLLB-200) multilingual translation model. The classification model is fine-tuned on a 13-class subset of the AI4Bharat Indian Sign Language video corpus from IIT Madras, processing 16-frame clips sampled uniformly from each video at 224 x 224 resolution. Under a small-scale academic setting (13 classes, 197 clips, 80-20 split), the fine-tuned model reaches 99% training accuracy and 78% validation accuracy after 15 epochs. We provide a per-class breakdown via a confusion matrix and classification report, identify the dominant failure modes (confusable adjective pairs such as ugly, deaf, blind, hat, and dress), and describe a Streamlit-based inference demo that takes a user-uploaded video and returns the predicted English label alongside its Hindi, Telugu, and Bengali translations. We discuss the scope, limitations (small label set, isolated-word rather than continuous signing, single-signer style sensitivity, ambiguity of single-word machine translation), and directions for future work, including expanding to sentence-level generation and a larger vocabulary. Code is released to support reproducibility.
- Abstract(参考訳): 手話は、グローバルな聴覚障害と難聴コミュニティにとって主要なコミュニケーション手段であるが、ビデオから手話を認識し、それを自然言語のテキストに変換する自動化ツールは、特に低リソースのインドの言語では限られている。
2段階のディープラーニングパイプラインを提示する。
(i)細調整ビデオMAEビデオ変換器を用いて、短い手話ビデオクリップを英語の単語ラベルに分類し、
(II)メタAIのNo Language Left Behind (NLLB-200)多言語翻訳モデルを用いて、予測された英語ラベルをヒンディー語、テルグ語、ベンガル語に翻訳する。
分類モデルはIIT MadrasのAI4Bharat Indian Sign Languageビデオコーパスの13クラスのサブセットに基づいて微調整され、各ビデオから224 x 224の解像度で一様に16フレームのクリップを処理する。
小規模な学習環境(13クラス、197クリップ、80-20分割)では、微調整されたモデルは15時間後に99%のトレーニング精度と78%の検証精度に達する。
混同行列と分類レポートを用いてクラスごとの分解を行い、支配的な失敗モード(難聴、ブラインド、帽子、ドレスなどの折り畳み可能な形容詞ペア)を特定し、ユーザアップロードされたビデオを取り、ヒンディー語、テルグ語、ベンガル語の翻訳と共に予測された英語ラベルを返すStreamlitベースの推論デモを記述する。
本稿では,文レベルの生成や語彙の増大など,その範囲,制限(連続的な署名よりもむしろ孤立語,シングルシグナースタイルの感度,単語機械翻訳のあいまいさ),今後の作業の方向性について論じる。
再現性をサポートするためにコードがリリースされた。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture
Videos into Multiple Indian Languages [5.17905382659474]
講義ビデオの言語間ダビングには、オリジナルの音声の書き起こし、修正と不一致の除去が必要である。
本稿では,インド語の講義映像を半自動で再生する際の課題について述べる。
論文 参考訳(メタデータ) (2022-11-01T07:06:29Z) - Clean Text and Full-Body Transformer: Microsoft's Submission to the
WMT22 Shared Task on Sign Language Translation [11.412720572948086]
この記事では、MicrosoftがWMT 2022で手話翻訳に関する最初の共有タスクを提出したことを述べる。
この課題は、スイスドイツ語の手話の言語翻訳に手話を扱うことである。
データは実際のブロードキャストニュースから収集され、ネイティブな署名や長いビデオのシナリオをカバーしている。
論文 参考訳(メタデータ) (2022-10-24T15:27:38Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。