論文の概要: Toward Signing Activity Projection in Sign Language Interaction
- arxiv url: http://arxiv.org/abs/2606.09424v1
- Date: Mon, 08 Jun 2026 12:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.061984
- Title: Toward Signing Activity Projection in Sign Language Interaction
- Title(参考訳): 手話相互作用における手話活動予測に向けて
- Authors: Takao Obi, Wang Yusong, Koji Inoue, Kotaro Funakoshi,
- Abstract要約: 本稿では,VAPアーキテクチャをDyadic手話対話に適応させるための最初のトランスファー研究について述べる。
我々は語彙記号アノテーションからバイナリ署名アクティビティストリームを導出し、ターンテイク予測のためのプロキシタスクを定式化する。
以上の結果から, ShiFT/HOLD予測は特に手技では有望であり, ShiFT予測は依然として困難である。
- 参考スコア(独自算出の注目度): 7.198816748075489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social robots must interact robustly not only with users assumed by speech-centered systems but also with diverse users whose communication relies on different modalities, e.g., sign language. One important capability gap is predictive turn-taking with signing users. Although Voice Activity Projection (VAP) has been successfully used to model future voice activity in spoken interaction, it remains unclear whether the framework transfers to sign language interaction. This paper presents an initial transfer study of adapting a VAP architecture to dyadic sign language interaction. Using interaction recordings from the Public DGS Corpus, we derive binary signing activity streams from lexical sign annotations and formulate proxy tasks for turn-taking prediction. The model uses pose-derived hand, eye-region, and mouth-region features extracted for each signer. The results show that SHIFT/HOLD prediction is promising, especially with hand cues, while SHIFT-prediction remains difficult. These findings provide initial evidence for both the promise and the current limitations of transferring predictive turn-taking models from spoken interaction to sign language interaction. Predictive modeling of sign language interaction still requires sign-language-specific event definitions that go beyond speech-derived categories.
- Abstract(参考訳): ソーシャルロボットは、音声中心のシステムによって想定されるユーザだけでなく、さまざまなモダリティ、例えば手話に依存する多様なユーザと、堅牢に対話する必要がある。
重要な機能ギャップの1つは、サインユーザによる予測的なターンテイクだ。
VAP(Voice Activity Projection)は、音声対話における将来の音声活動のモデル化に成功しているが、このフレームワークが手話対話に移行するかどうかは不明だ。
本稿では,VAPアーキテクチャをDyadic手話対話に適応させるための最初のトランスファー研究について述べる。
The Public DGS Corpus の対話記録を用いて、語彙記号アノテーションからバイナリ署名アクティビティストリームを導出し、ターンテイク予測のためのプロキシタスクを定式化する。
モデルは、各シグナーから抽出されたポーズ由来の手、目領域、口領域の特徴を使用する。
以上の結果から, ShiFT/HOLD予測は特に手技では有望であり, ShiFT予測は依然として困難である。
これらの知見は、音声対話から手話対話への予測的ターンテイクモデル転送の約束と現在の制限の両方について、最初の証拠を提供する。
手話相互作用の予測モデリングには、音声由来のカテゴリを超えた手話固有のイベント定義が必要である。
関連論文リスト
- Emotion Recognition in Sign Language Conversation [9.580297565885376]
本稿では,言語ビデオ分析にサインするためにERCタスクを導入し,eJSL Dialogデータセットを提案する。
データセットには、480のユニークな対話で構成された1,920のビデオサンプルが含まれている。
我々は、孤立した視覚ネットワークからマルチモーダル対話型アーキテクチャまで、様々なモデルを用いて、このデータセットの系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2026-05-22T07:44:20Z) - Towards Continuous Sign Language Conversation from Isolated Signs [15.139358499214529]
本稿では,これまでで最大のラベル付き孤立符号語彙であるSignaVox-Wと,連続的な3次元手話データセットであるSignaVox-Uを紹介する。
得られたデータを用いて、サイン・ツー・サインの直接対話モデルであるSignaVoxをトレーニングし、事前の署名コンテキストから3次元の身体、手、顔の動き応答を生成する。
論文 参考訳(メタデータ) (2026-05-14T11:22:27Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。