論文の概要: WaveSync: Constrained Wavefront Optimization for Synchronized Co-Speech Gestures in Humanoid Robots
- arxiv url: http://arxiv.org/abs/2606.16600v1
- Date: Mon, 15 Jun 2026 11:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.494372
- Title: WaveSync: Constrained Wavefront Optimization for Synchronized Co-Speech Gestures in Humanoid Robots
- Title(参考訳): WaveSync:ヒューマノイドロボットにおける同期音声ジェスチャの制約付きウェーブフロント最適化
- Authors: Thang Tran Viet, Thanh Nguyen Canh, Gia Huy Uong, Phuc Van Dinh, Tan Viet Tuyen Nguyen, Xiem HoangVan, Nak Young Chong,
- Abstract要約: 自然な人間とロボットの相互作用には表現力のある共同音声ジェスチャーが不可欠であるが、物理的ヒューマノイドロボットではそれらを生成することは困難である。
大規模言語モデルが対話応答を構造化セマンティックスキーマに分解するハイブリッドフレームワークである textbfWaveSync を提案する。
提案手法は,高同期精度を実現し,主観的評価と主観的評価の両面において3つのベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.0424038686449006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive co-speech gestures are crucial for natural human-robot interaction, but generating them on physical humanoid robots is difficult because gesture strokes must align with speech emphasis while satisfying strict kinematic and dynamic constraints. Unlike virtual avatars, humanoid robots cannot freely execute rapid or overlapping motions, making word-level synchronization and hardware-safe motion planning a coupled problem. We present \textbf{WaveSync}, a hybrid framework in which a Large Language Model decomposes dialogue responses into structured semantic schemas and assigns per-word importance weights, constructing a continuous Semantic Importance Wave. Gesture trajectories are shaped through Dynamic Movement Primitives, enforcing kinematic feasibility while enhancing expressiveness. A Wavefront Optimization stage aligns peak-to-peak gesture-speech synchronization and resolves residual kinematic violations through gesture-duration compression and forward propagation. Experimental evaluation based on five dialogue scenarios shows that our method achieves high synchronization accuracy and outperforms three baselines in both objective and subjective evaluations. Each component in WaveSync plays a necessary role in producing gestures that are expressive, semantically grounded, and kinematically compliant. The code, resources, and videos are available at \href{https://github.com/pairs-lab/WaveSync}{WaveSync}
- Abstract(参考訳): 自然な人間とロボットの相互作用には表現力のある共同音声ジェスチャーが不可欠であるが, 身体的ヒューマノイドロボット上での音声生成は, 厳密な運動的制約と動的制約を満足しつつ, 音声強調と整合しなければならないため困難である。
仮想アバターとは異なり、ヒューマノイドロボットは高速または重なり合う動作を自由に実行できず、単語レベルの同期とハードウェアセーフな動作計画が結合問題となる。
本稿では,対話応答を構造化セマンティックスキーマに分解し,単語ごとの重要性重みを割り当て,連続的なセマンティック・インシデンス・ウェーブを構築するハイブリッド・フレームワークである‘textbf{WaveSync} を提案する。
ジェスチャーの軌跡は動的運動プリミティブを通して形成され、表現性を高めながら運動性の実現性を高める。
Wavefront Optimizationステージは、ピークからピークまでのジェスチャー音声同期を調整し、ジェスチャデュレーション圧縮とフォワード伝搬によって残留キネマティック違反を解消する。
5つの対話シナリオに基づく実験評価により,本手法は高い同期精度を実現し,主観評価と主観評価の両面において3つのベースラインを上回った。
WaveSyncの各コンポーネントは、表現力があり、セマンティックな基礎があり、キネマティックに準拠するジェスチャーを生成する上で、必要な役割を果たす。
コード、リソース、ビデオは \href{https://github.com/pairs-lab/WaveSync}{WaveSync} で入手できる。
関連論文リスト
- ReFree: Towards Realistic Co-Speech Video Generation via Reward-Free RL and Multilevel Speech Guidance [50.482989497576476]
音声による会話キャラクタアニメーションは、自然な会話行動を伝えるライフライクなポートレートビデオを生成する。
既存のアプローチは通常、動的表情や頭部の動きに対して正確な音素間同期をオフにする。
本稿では,事前学習したビデオ生成モデルに基づく,フローマッチング型音声-画像間アニメーションフレームワークReFree-S2Vを提案する。
論文 参考訳(メタデータ) (2026-06-11T13:00:58Z) - Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation [50.411841997631484]
We present Unison, a unified framework that promote coherence across the motion, speech, and sound modalities。
We show that Unison achieves state-of-the-art performance in audio perceptual quality and cross-modal synchro。
論文 参考訳(メタデータ) (2026-05-09T06:32:54Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - Real-Time Synchronized Interaction Framework for Emotion-Aware Humanoid Robots [0.5156484100374058]
音声韻律と全体ジェスチャーを同期するNAOロボットのためのリアルタイムフレームワークを提案する。
シームレスな感覚運動調整を可能にすることにより、コンテキスト認識型社会ロボットの展開が促進される。
論文 参考訳(メタデータ) (2026-01-24T03:53:09Z) - OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:15:26Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。
本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。
我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文 参考訳(メタデータ) (2025-03-17T14:42:31Z) - Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers [58.86974149731874]
Cosh-DiTは、ハイブリッド拡散変換器を備えた音声合成方式である。
我々は音声拡散変換器を導入し、音声リズムに同期した表現的ジェスチャーダイナミクスを合成する。
生成した音声駆動動作に条件付きリアルな映像合成を行うために,視覚拡散変換器を設計する。
論文 参考訳(メタデータ) (2025-03-13T01:36:05Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。