論文の概要: Integrating Facial Generation into Full-Duplex Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2606.21970v1
- Date: Sat, 20 Jun 2026 09:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:29:22.261135
- Title: Integrating Facial Generation into Full-Duplex Spoken Dialogue Systems
- Title(参考訳): 全二重音声対話システムへの顔生成の統合
- Authors: Jingjing Jiang, Atsumoto Ohashi, Ryuichiro Higashinaka,
- Abstract要約: ユーザの音声と顔の入力を同時に処理し、音声と顔の動きを生成する全音声対話モデル。
顔非回帰トークンを生成するM Moshi Face Transformerモジュールにより、MoshiFaceはリアルタイムで同期オーディオおよび顔トークンを生成することができる。
- 参考スコア(独自算出の注目度): 17.347116793339612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-duplex spoken dialogue models, such as Moshi, enable natural, low-latency voice conversations. However, they remain limited to the audio modality, lacking the facial expressions that are integral to human communication. We present Moshi-Face, the first full-duplex dialogue model that jointly processes the user's audio and facial input while simultaneously generating speech and facial motion. We first construct a vector-quantized variational autoencoder (VQ-VAE) as a face codec that encodes 3D head meshes extracted from facial videos into compact discrete tokens, referred to as face tokens, and conversely reconstructs 3D meshes from these tokens. We then extend Moshi with a Face Transformer module that generates face tokens non-autoregressively, enabling Moshi-Face to produce synchronized audio and face tokens in real time. Experiments show that Moshi-Face achieves audiovisual alignment at low latency while preserving the dialogue quality of the original audio-only model.
- Abstract(参考訳): Moshiのようなフル二重音声対話モデルは、自然な低レイテンシ音声会話を可能にする。
しかし、それらは人間のコミュニケーションに不可欠な表情を欠いているため、音声のモダリティに限られている。
本稿では、ユーザの音声と顔の入力を同時に処理し、音声と顔の動きを同時に生成する最初の二重対話モデルであるMoshi-Faceを紹介する。
まず,顔画像から抽出した3Dヘッドメッシュを,顔トークンと呼ばれるコンパクトな離散トークンに符号化し,これらのトークンから3Dメッシュを逆再構成する,ベクトル量子化可変オートエンコーダ(VQ-VAE)を顔コーデックとして構築する。
次に,顔トークンを非自動で生成するFace TransformerモジュールでMoshiを拡張し,Moshi-Faceがリアルタイムに同期音声および顔トークンを生成できるようにする。
実験の結果,Moshi-Face は低レイテンシで音声視線アライメントを実現し,元の音声のみのモデルの対話品質を保っていることがわかった。
関連論文リスト
- TokTalk: Expressive Real-time Facial Animation from Audio-LLM Tokens [17.040246879872214]
TokTalkは,ストリーミング音声から表情の表情を直接リアルタイムで出力するシステムである。
軽量な適応戦略により、トレーニングされたモデルは、最小の計算オーバーヘッドでトークンベースのAudio-LLMにシームレスに接続することができます。
TokTalkのリアルタイム性能は先行技術に匹敵するレイテンシであり, 3次元顔の画質, 表現性, 制御性において極めて良好であることを示す。
論文 参考訳(メタデータ) (2026-05-29T13:31:11Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。