Fugu-MT 論文翻訳(概要): Odoriko: A Shape-Aware Multimodal Diffusion Framework for Human Motion

論文の概要: Odoriko: A Shape-Aware Multimodal Diffusion Framework for Human Motion

arxiv url: http://arxiv.org/abs/2606.21135v1
Date: Fri, 19 Jun 2026 06:19:29 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:18:30.257937
Title: Odoriko: A Shape-Aware Multimodal Diffusion Framework for Human Motion
Title（参考訳）: Odoriko: 人体動作のための形状対応多モード拡散フレームワーク
Authors: Dongseok Shim, Julian Tanke, Kengo Uchida, Christian Simon, Koichi Saito, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji,
Abstract要約: Odorikoは、最初の統合マルチモーダルモーション生成フレームワークである。合成された動きの出力に直接、対象の生体形態情報を反映する。運動を伴う対象形態を回復し、一つの枠組みで推定と生成を統一する。
参考スコア（独自算出の注目度）: 40.9326670703426
License:
Abstract: Human motion generation has been widely studied across diverse input modalities, text, music, and video, and recent efforts have unified these into single multimodal frameworks. However, while morphological factors such as gender and body shape are known to produce distinct kinematic signatures, no existing unified framework incorporates this into generation, treating all subjects as morphologically equivalent. We present Odoriko, the first unified multimodal motion generation framework that reflects subject bio-morphological information directly in synthesized motion output. Rather than averaging over subject variation, Odoriko generates motion that is consistent with who is moving, not just what they are asked to do, across text, music, and video conditions within a single model. When explicit morphological information is unavailable, Odoriko additionally recovers subject morphology alongside motion, unifying estimation and generation in one framework. Extensive experiments across text-to-motion, music-to-dance, and video-to-motion benchmarks demonstrate that Odoriko matches or exceeds prior specialized models on standard metrics, while enabling morphology-consistent generation that no existing unified framework supports.
Abstract（参考訳）: 人間の動作生成は、様々な入力モダリティ、テキスト、音楽、ビデオで広く研究されており、近年ではこれらを単一のマルチモーダルフレームワークに統合している。しかしながら、性別や体型などの形態的要因は異なるキネマティックなシグネチャを生み出すことが知られているが、既存の統一的な枠組みではこれらを生成に組み入れておらず、全ての対象を形態学的に等価であると見なしている。本報告では, 合成動作出力において, 主観的生体形態情報を直接反映した, 初めての統合型マルチモーダルモーション生成フレームワークであるオドリコについて述べる。対象の変動を平均化する代わりに、オドリコは、テキスト、音楽、ビデオの条件を1つのモデルで横断するだけでなく、誰が何をするかだけでなく、誰が動くかに一致した動きを生成する。明示的な形態情報が入手できない場合、オドリコは動きとともに対象形態を復元し、一つの枠組みで推定と生成を統一する。テキスト・トゥ・モーション、ミュージック・トゥ・ダンス、ビデオ・トゥ・モーションのベンチマークにわたる大規模な実験は、Odorikoが標準メトリクスの以前の特別なモデルにマッチするか、超えていることを示している。

関連論文リスト

IAM: Identity-Aware Human Motion and Shape Joint Generation [14.037850965399384]
本研究では,身体形態と運動力学の関係を明示的にモデル化した個人認識型運動生成フレームワークを提案する。動作シーケンスと身体形状パラメータを同時に合成するジョイントモーション-形状生成パラダイムを提案する。モーションキャプチャデータセットと大規模インザワイルドビデオの実験は、モーションリアリズムの改善とモーションアイデンティティの整合性を実証している。
論文参考訳（メタデータ） (2026-04-28T03:15:12Z)
Training-free Motion Factorization for Compositional Video Generation [57.819757612370374]
複雑な動きを3つの主要カテゴリに分解する運動因子化フレームワークを提案する。本フレームワークは,実世界のベンチマークにおいて,動作合成における印象的な性能を実現する。
論文参考訳（メタデータ） (2026-03-10T02:27:48Z)
Topology-Agnostic Animal Motion Generation from Text Prompt [16.557163253248817]
OmniZooは140種32,979配列にまたがる大規模動物運動データセットである。本稿では,任意の骨格トポロジに対してテキスト駆動動作を生成可能な,一般化された自己回帰運動生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-11T07:08:29Z)
X-MoGen: Unified Motion Generation across Humans and Animals [9.967329240441844]
X-MoGenは、人間と動物の両方をカバーするクロス種テキスト駆動モーション生成のための最初の統一されたフレームワークである。我々は115種の大規模データセットと119kのモーションシーケンスを構築し、共同トレーニングのための共有骨格トポロジーの下で人間と動物の動きを統合する。 UniMo4Dの実験では、X-MoGenは目に見える種と目に見えない種の両方で最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-08-07T08:51:51Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文参考訳（メタデータ） (2022-06-16T09:06:25Z)
GANimator: Neural Motion Synthesis from a Single Sequence [38.361579401046875]
本稿では,1つの短い動き列から新しい動きを合成することを学ぶ生成モデルであるGANimatorを提案する。 GANimatorはオリジナルの動きのコア要素に類似した動きを生成し、同時に新規で多様な動きを合成する。クラウドシミュレーション,キーフレーム編集,スタイル転送,対話型制御など,さまざまな応用例を示し,それぞれが単一の入力シーケンスから学習する。
論文参考訳（メタデータ） (2022-05-05T13:04:14Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。