Fugu-MT 論文翻訳(概要): From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation

論文の概要: From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation

arxiv url: http://arxiv.org/abs/2606.13630v1
Date: Thu, 11 Jun 2026 17:41:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.960017
Title: From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation
Title（参考訳）: トークンから顔へ:3次元顔アニメーションにおける離散的音声表現の検討
Authors: Pedro Correa, Olivier Perrotin, Samir Sadok, Paula Costa, Thomas Hueber,
Abstract要約: SSL機能はセグメンショナルおよびセマンティックなキューを強調し、ニューラルコーデックは音響再構成に最適化されたラテントを生成し、ASRスタイルの目的はラベルベースの空間を生成する。 2つの顔デコーダ間での顔再構成の質を比較検討し、3次元顔合成のための音声表現ファミリーを4つ評価した。本稿では,音声と3次元顔の動きを復号化するために,共有空間,離散表現を活用可能な音声ビジュアルテキスト・音声パイプラインを提案する。
参考スコア（独自算出の注目度）: 8.213984771916182
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The choice of speech representation is critical in speech-driven 3D facial animation. Representations differ in what they encode: SSL features emphasize segmental and semantic cues, neural codecs yield latents optimized for acoustic reconstruction, and ASR-style objectives produce label-based spaces. We evaluate four speech representation families for 3D facial synthesis, comparing their facial reconstruction quality across two facial decoders using objective metrics and a perceptual evaluation. We additionally conduct probing analyses that relate tokenized representations to phonetic units and to articulatory deformations. We found that encoding phonetic classes is beneficial for accurate facial animation prediction on both semantic and label-based representations with comparable facial animation quality. From the latter, we introduce an Audio Visual Text-to-Speech (AVTTS) pipeline that leverages, as a shared space, discrete representations to decode speech and 3D facial motion.
Abstract（参考訳）: 音声表現の選択は、音声駆動型3D顔アニメーションにおいて重要である。 SSL機能はセグメントとセマンティックなキューを強調し、ニューラルコーデックは音響再構成に最適化されたラテントを生成し、ASRスタイルの目的はラベルベースの空間を生成する。 3次元顔合成のための4つの音声表現系の評価を行い、2つの顔デコーダ間での顔再構成の質を客観的な指標と知覚的評価を用いて比較した。さらに、トークン化表現を音素単位に関連づける探索分析や、調音変形を行う。その結果, 音声学級の符号化は, 意味とラベルに基づく表現の双方において, 表情の質に比較して, 正確な表情予測に有用であることが判明した。後者では,音声と3次元顔の動きを復号化するために,共有空間として,離散表現を利用したAVTTS(Audio Visual Text-to-Speech)パイプラインを導入する。

関連論文リスト

VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。 MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文参考訳（メタデータ） (2025-07-08T15:04:17Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-18T01:49:42Z)
Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文参考訳（メタデータ） (2023-10-25T21:22:28Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文参考訳（メタデータ） (2023-03-09T17:05:19Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文参考訳（メタデータ） (2021-04-16T09:44:12Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。