論文の概要: PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion Generation
- arxiv url: http://arxiv.org/abs/2606.19935v1
- Date: Thu, 18 Jun 2026 08:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.733552
- Title: PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion Generation
- Title(参考訳): Physdrift:Humanoid Co-Speech運動生成における身体のギャップを埋める
- Authors: Zhangzhao Liang, Xiaofen Xing, Mingyue Yang, Wenlve Zhou, Xiangmin Xu,
- Abstract要約: 本稿では,人体表現に頼らずに音声からヒューマノイド関節軌跡を推定する,エンボディメントを意識した協調音声運動フレームワークであるPhysDriftを紹介する。
実験と実世界のヒューマノイド配置により、エンボディメントを意識したロボットネイティブ生成は、音声と運動のアライメント、身体的可視性、運動の滑らかさ、推論効率、リアルタイム相互作用能力を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 31.168201029670865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid robots require co-speech motions that are not only expressive and speech-aligned, but also physically executable under embodiment constraints. Existing co-speech generation pipelines are predominantly human-centric: motions are first generated in human-body representations such as SMPL-X and subsequently retargeted to humanoid robots. In this work, we identify a fundamental embodiment gap in this paradigm, where the mismatch between human motion manifolds and humanoid embodiment constraints disrupts embodiment consistency during motion transfer and physical execution. Through extensive analysis, we show that although retargeting can preserve coarse motion semantics, it significantly compresses motion diversity and weakens prosody-motion synchronization, limiting expressive humanoid behaviors. To address this problem, we first propose IK-EER, a prosody-preserving humanoid motion curation framework that jointly optimizes kinematic feasibility and speech-motion temporal alignment during retargeting. Building upon the curated robot-native motion dataset, we further introduce PhysDrift, an embodiment-aware co-speech motion generation framework that directly predicts executable humanoid joint trajectories from speech without relying on intermediate human-body representations. Unlike conventional human-centric pipelines, PhysDrift maintains embodiment consistency throughout both training and inference while incorporating physical regularization to stabilize robot motion dynamics. Extensive experiments and real-world humanoid deployment demonstrate that embodiment-aware robot-native generation substantially improves speech-motion alignment, physical plausibility, motion smoothness, inference efficiency, and real-time interaction capability.
- Abstract(参考訳): ヒューマノイドロボットは、表現力と音声の整合性だけでなく、身体的制約の下で物理的に実行可能な、共声動作を必要とする。
既存の音声生成パイプラインは主に人間中心であり、動きはまずSMPL-Xのような人体表現で生成され、その後ヒューマノイドロボットに再ターゲットされる。
本研究では,人間の運動多様体とヒューマノイドのエンボディメント制約のミスマッチが,運動伝達や身体的実行におけるエンボディメントの整合性を阻害する,このパラダイムの基本的なエンボディメントギャップを同定する。
広範に分析した結果、リターゲティングは粗い動きのセマンティクスを保存できるが、動きの多様性を著しく圧縮し、韻律と運動の同期を弱め、表現的ヒューマノイドの振る舞いを制限していることがわかった。
この問題に対処するために,我々はまず,リターゲティング時の運動能力と声動時間的アライメントを協調的に最適化する韻律保存型ヒューマノイド運動キュレーションフレームワークであるIK-EERを提案する。
さらに, ロボットネイティブな動作データセットに基づいて, 中間的な人体表現に頼ることなく, 音声から実行可能なヒューマノイド関節軌跡を直接予測する, エンボディメントを意識した音声合成フレームワークであるPhysDriftを紹介する。
従来の人間中心のパイプラインとは異なり、PhysDriftはトレーニングと推論の両方を通して実施の一貫性を維持し、物理正則化を取り入れてロボットの運動力学を安定させる。
広汎な実験と実世界のヒューマノイド配置により、エンボディメントを意識したロボットネイティブ生成は、音声と運動のアライメント、身体的可視性、運動の滑らかさ、推論効率、リアルタイムの相互作用能力を大幅に改善する。
関連論文リスト
- Human2Humanoid: Physics-Aware Cross-Morphology Motion Retargeting for Humanoid Robots [9.096721498763717]
人間の動きをヒューマノイドロボットに再ターゲティングすることは、遠隔操作、模倣学習、人間とロボットの相互作用にとって重要である。
本稿では,人間の動作を高忠実度なヒューマノイドロボットに伝達する,教師なし動作フレームワークであるHuman2Humanを提案する。
実験の結果, 提案手法は, ペアデータを持たないユニトリーG1ヒューマノイドロボットに対して, 人間の動きを的確に再現することに成功した。
論文 参考訳(メタデータ) (2026-06-02T10:53:06Z) - SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-15T07:41:52Z) - RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids [20.796118584632904]
自然言語と全身移動を橋渡しする統合潜在駆動型フレームワークを提案する。
我々のフレームワークは、テキスト誘導型ヒューマノイドインテリジェンスをデプロイするための実践的なパスを提供する。
論文 参考訳(メタデータ) (2026-03-18T17:02:56Z) - PhyGile: Physics-Prefix Guided Motion Generation for Agile General Humanoid Motion Tracking [23.96905373874686]
本稿では,ロボットネイティブ動作生成と推論のループを閉じる統合フレームワークであるPhyGileを紹介する。
我々は,GMTコントローラをカリキュラムベースのMix-of-expertsスキームでトレーニングし,その後,大規模ロボット動作に対するロバスト性を改善するためにラベル付き動作データを用いた後学習を行った。
PhyGileはテキスト駆動型ヒューマノイドコントロールのフロンティアを拡張し、アジャイルの安定したトラッキングを可能にする。
論文 参考訳(メタデータ) (2026-03-13T06:43:44Z) - AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers [49.796014934503184]
本研究では、単一モデルで多様なロボット形態に人間の動きを適応させることができる統一型ニューラルネットワークフレームワークを提案する。
12個の異なるヒューマノイドロボットの実験結果から、AdaMorphが異種トポロジにわたって効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2026-01-12T07:39:38Z) - Semantic Co-Speech Gesture Synthesis and Real-Time Control for Humanoid Robots [5.531678625546847]
本稿では,意味論的に意味のある共同音声ジェスチャーを合成し,人間型ロボット上でリアルタイムに展開する,革新的なエンドツーエンドフレームワークを提案する。
私たちの中核的なイノベーションは、セマンティックスを意識したジェスチャー合成モジュールの巧妙な統合にあります。
本システムでは, セマンティックに適切かつリズミカルにコヒーレントなジェスチャーを生成する。
論文 参考訳(メタデータ) (2025-12-19T02:55:10Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - Skeleton2Humanoid: Animating Simulated Characters for
Physically-plausible Motion In-betweening [59.88594294676711]
現代の深層学習に基づく運動合成アプローチは、合成された運動の物理的妥当性をほとんど考慮していない。
テスト時に物理指向の動作補正を行うシステムSkeleton2Humanoid'を提案する。
挑戦的なLaFAN1データセットの実験は、物理的妥当性と精度の両方の観点から、我々のシステムが先行手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-09T16:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。