論文の概要: Corpus Augmentation for Sign Language Translation via LLM-Guided Video Stitching
- arxiv url: http://arxiv.org/abs/2606.11925v1
- Date: Wed, 10 Jun 2026 10:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.423109
- Title: Corpus Augmentation for Sign Language Translation via LLM-Guided Video Stitching
- Title(参考訳): LLM-Guided Video Stitchingによる手話翻訳のためのコーパス強化
- Authors: Zsolt Robotka, Ádám Rák, Jalal Al-Afandi, András Horváth, György Cserey,
- Abstract要約: 署名言語翻訳は、アクセシビリティを改善し、署名と署名しないコミュニティ間のコミュニケーションを可能にするという約束を持っている。
大規模な弱い整列データセットにより、スケールでの事前トレーニングが可能となり、gloss-freeメソッドはエキスパートアノテーションへの依存を減らした。
本研究では,人間のアノテーション,外部手話ビデオコーパス,生成ビデオモデルを必要としないコーパス拡張手法を提案する。
我々の拡張は、同じフレームワーク内で適用され、アーキテクチャやトレーニングプロトコルを変更することなく、+2.92 BLEU-4を達成する。
- 参考スコア(独自算出の注目度): 0.16792862237830142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language translation (SLT) converts sign language video into spoken language text and holds significant promise for improving accessibility and enabling communication between signing and non-signing communities. While large weakly-aligned datasets have enabled pre-training at scale and gloss-free methods have reduced reliance on expert annotation, high-quality parallel sign video-text pairs for fine-tuning remain scarce, limiting generalisation on long-tail vocabulary and unseen constructions. We propose a corpus augmentation approach that requires no additional human annotation, external sign-language video corpora, or generative video models, relying only on the existing gloss-annotated training corpus and an LLM for sentence generation: per-gloss clips are extracted from training videos via CTC forced-alignment, novel gloss-sentence pairs are generated by a corpus-anchored LLM, and synthetic sequences are assembled through random sentence sampling and clip assignment. The resulting synthetic RGB video-text pairs are architecture-agnostic at the downstream training stage and can be consumed directly by RGB-based SLT models, or converted into pose or feature representations by pipelines that derive such inputs from video. Sincan et al. re-evaluated five recent gloss-free methods under strictly identical conditions; the largest verified gain over the GFSLT-VLP baseline was only 0.98 BLEU-4. Our augmentation, applied within the same framework, achieves +2.92 BLEU-4 without any change to architecture or training protocol. We further identify that synthetic data harms vision-language pretraining despite improving its objectives, and that optimising clip transitions for visual smoothness is counter-productive under L2-based criteria; we propose that abrupt boundaries may act as a form of implicit regularisation. Code is available at https://github.com/robizso/slt-datagen.
- Abstract(参考訳): 手話翻訳(SLT)は手話動画を音声言語テキストに変換し、アクセシビリティを改善し、署名と非署名のコミュニティ間のコミュニケーションを可能にするための重要な約束を持っている。
大きな弱い整列したデータセットは、スケールでの事前トレーニングを可能にし、光沢のない手法は専門家のアノテーションへの依存を減らしたが、高品質の並列手話ビデオテキストペアは依然として不足しており、長い尾の語彙や目に見えない構造への一般化が制限されている。
そこで本研究では,CTC強制アライメントによるトレーニングビデオから声帯あたりのクリップを抽出し,コーパスアンコレ LLM によって新しい声帯-文対を生成し,ランダムな文のサンプリングとクリップの割り当てによって合成シーケンスを組み立てることにより,人間のアノテーション,外部手話ビデオコーパス,あるいは生成ビデオモデルの追加を必要としないコーパス拡張アプローチを提案する。
合成されたRGBビデオテキストペアは、下流のトレーニング段階ではアーキテクチャに依存しず、RGBベースのSLTモデルによって直接消費されるか、ビデオからそのような入力を導出するパイプラインによってポーズや特徴表現に変換される。
Sincanらは、GFSLT-VLPベースラインに対する最も証明された利得はわずか0.98 BLEU-4である。
我々の拡張は、同じフレームワーク内で適用され、アーキテクチャやトレーニングプロトコルを変更することなく、+2.92 BLEU-4を達成する。
さらに, 合成データは, 目的の改善にもかかわらず, 視覚言語による事前学習を損なうこと, 映像の滑らかさに対するクリップ遷移の最適化はL2基準では非生産的であること, 急激な境界が暗黙的正規化の一形態として機能することを提案する。
コードはhttps://github.com/robizso/slt-datagen.comで入手できる。
関連論文リスト
- Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - RVLF: A Reinforcing Vision-Language Framework for Gloss-Free Sign Language Translation [44.39679803351263]
我々は手話に特化して設計された大規模視覚言語モデル(LVLM)を構築した。
手話の十分な表現のために、RVLFは効果的な意味表現学習機構を導入する。
そして,文レベルの意味的ミスアライメントを改善するために,GRPOに基づく最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-12-08T08:11:53Z) - Contrastive Pretraining with Dual Visual Encoders for Gloss-Free Sign Language Translation [33.48154010885497]
手話翻訳(SLT)は、手話動画を音声やテキストに変換することを目的としている。
グロースフリーSLTのための2相デュアルビジュアルエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T14:09:36Z) - Hierarchical Feature Alignment for Gloss-Free Sign Language Translation [29.544715933336715]
手話翻訳は手話動画を音声文に変換する。
既存の手法は、エンドツーエンドの学習において、視覚的表現とテキスト的表現の相違に苦慮する。
我々は,手話の構造に触発された新しい階層的事前学習戦略を導入し,擬似グルースと対照的なビデオ言語アライメントを取り入れた。
論文 参考訳(メタデータ) (2025-07-09T10:45:50Z) - Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。