論文の概要: ReFree: Towards Realistic Co-Speech Video Generation via Reward-Free RL and Multilevel Speech Guidance
- arxiv url: http://arxiv.org/abs/2606.13304v1
- Date: Thu, 11 Jun 2026 13:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.802524
- Title: ReFree: Towards Realistic Co-Speech Video Generation via Reward-Free RL and Multilevel Speech Guidance
- Title(参考訳): ReFree:Reward-free RLとMultilevel Speech Guidanceによるリアリスティックな音声合成を目指して
- Authors: Salaheldin Mohamed, M. Hamza Mughal, Rishabh Dabral, Christian Theobalt,
- Abstract要約: 音声による会話キャラクタアニメーションは、自然な会話行動を伝えるライフライクなポートレートビデオを生成する。
既存のアプローチは通常、動的表情や頭部の動きに対して正確な音素間同期をオフにする。
本稿では,事前学習したビデオ生成モデルに基づく,フローマッチング型音声-画像間アニメーションフレームワークReFree-S2Vを提案する。
- 参考スコア(独自算出の注目度): 50.482989497576476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven talking character animation seeks to generate life-like portrait videos that convey natural conversation behavior, aligning facial motion with spoken audio. Although recent advances in video generation have substantially improved realism in video-based animation, achieving both accurate lip articulation and expressive behavior remains challenging. Existing approaches typically trade off precise phoneme-to-lip synchronization against dynamic facial expressions and head motion, yielding animations that are either accurate yet rigid, or expressive but poorly synchronized. We address this challenge by proposing ReFree-S2V, a flow-matching speech-to-portrait animation framework that builds upon a pretrained video generation model to achieve fine-grained speech articulation and high-level expressive cues in speech-driven portrait animation. This model introduces a multi-level speech representation capturing phonetic and prosodic information at both local and global granularities. These representations are selectively injected into transformer blocks via learnable level selectors, enabling both accurate lip synchronization and natural expressive motion. To achieve natural head movements, we further introduce a novel reward-free reinforcement learning scheme into flow-matching training to discourage perceptually implausible motion without relying on handcrafted synchronization metrics or reward models, or the high cost of human preference annotation. Extensive experiments demonstrate that ReFree-S2V achieves state-of-the-art performance, significantly outperforming existing methods in both quantitative lip-sync accuracy and qualitative human evaluations of naturalness and expressivity.
- Abstract(参考訳): 音声駆動型音声キャラクタアニメーションは、自然な会話行動を伝えるライフライクなポートレートビデオを生成し、顔の動きと音声の音声を一致させようとする。
近年のビデオ生成の進歩は、映像ベースのアニメーションにおけるリアリズムを大幅に改善しているが、正確な唇調音と表現行動の両方を達成することは、依然として困難である。
既存のアプローチは通常、ダイナミックな表情や頭部の動きに対して正確な音素対リップの同期をオフにし、正確で堅固で表現力に乏しいアニメーションを生成する。
この課題に対処するために,事前に訓練されたビデオ生成モデルに基づいて,音声駆動型肖像画におけるきめ細かな音声調音と高レベルの表現的手がかりを実現する,フローマッチング型音声-画像アニメーションフレームワークReFree-S2Vを提案する。
このモデルでは,局所的およびグローバルな粒度で音声情報と韻律情報をキャプチャするマルチレベル音声表現を導入している。
これらの表現は、学習可能なレベルセレクタを介してトランスフォーマーブロックに選択的に注入され、正確な唇同期と自然な表現運動の両方を可能にする。
自然な頭部運動を実現するために,手作りの同期指標や報酬モデルに頼ることなく,認識不能な動作を抑えるためのフローマッチングトレーニングに,新たな報酬なし強化学習手法を導入する。
実験により, ReFree-S2Vは, 口唇同期の定量的精度と, 自然性, 表現性の質的評価において, 従来の手法よりも有意に優れることがわかった。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation [69.50178144839275]
歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。
Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:59:27Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Learning Phonetic Context-Dependent Viseme for Enhancing Speech-Driven 3D Facial Animation [8.75374562753977]
音声駆動型3D顔アニメーションは、音声と同期した現実的な顔の動きを生成することを目的としている。
従来の手法では、各フレームを接地構造に合わせることで、復元損失を最小化していた。
本稿では,音韻遷移に対する音韻文脈の影響を明示的にモデル化した新しい音韻文脈認識損失を提案する。
論文 参考訳(メタデータ) (2025-07-28T07:04:50Z) - ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [45.03960077412929]
音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T17:49:01Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。