論文の概要: InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars
- arxiv url: http://arxiv.org/abs/2606.22905v1
- Date: Mon, 22 Jun 2026 06:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:47:41.357686
- Title: InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars
- Title(参考訳): Interactive Avatar: 一貫性とインテリジェントなアバターのためのリアルタイムストリーミングビデオ生成
- Authors: Quanyue Song, Yishan He, Yanfei Zhang, Shihao Cheng, Zhixiang He, Zhizhi Guo, Chi Zhang, Xuelong Li, Caigui Jiang,
- Abstract要約: 本研究では、視覚的に一貫したアバター映像生成と意図認識インタラクションをサポートするリアルタイム無限ストリーミングビデオ生成フレームワークを提案する。
自己回帰蒸留により、InteractiveAvatarは、任意に長い期間にわたって、人間のアバターのリアルタイムなストレーミング生成を達成する。
提案手法は,リアルタイムに複雑なユーザ・アバターインタラクションを実現するとともに,長周期生成における最先端の視覚的整合性を実現する。
- 参考スコア(独自算出の注目度): 39.5461462800725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based models have enabled realistic audio-driven avatar generation in real-time streaming. However, existing approaches struggle to maintain visual temporal consistency and fail to explicitly perceive user intent in complex interactive streaming scenarios. To address these challenges, we propose InteractiveAvatar, a real-time infinite-streaming video generation framework that supports visually consistent avatar video generation and intent-aware interactions. With autoregressive distillation, InteractiveAvatar achieves real-time str-eaming generation of human avatars over arbitrarily long durations. For visual consistency, we introduce a Long-Short Visual Memory (LSVM) mechanism that flexibly compresses historical visual information into compact tokens, preserving both short-range coherence and long-term consistency. To generate avatars with speeches and actions aligned with user intent, we propose a Reasoning-Reaction Module (RRM), which incorporates a State-Cycling strategy and a Cache-Switching mechanism. Extensive experimental results over diverse scenarios demonstrate that our method achieves state-of-the-art visual consistency in long-duration generation, while enabling complex user-avatar interaction in real time.
- Abstract(参考訳): 近年の拡散モデルにより,リアルタイムストリーミングにおける現実的なオーディオ駆動アバター生成が可能となった。
しかし、既存のアプローチは、視覚的時間的一貫性を維持するのに苦労し、複雑なインタラクティブなストリーミングシナリオにおいて、ユーザの意図を明示的に知覚することができない。
これらの課題に対処するために,視覚的に一貫したアバター映像生成と意図認識インタラクションをサポートするリアルタイム無限ストリーミングビデオ生成フレームワークであるInteractiveAvatarを提案する。
自己回帰蒸留により、InteractiveAvatarは、任意に長い期間にわたって、人間のアバターのリアルタイムなストレーミング生成を達成する。
視覚的整合性を確保するために,従来の視覚情報をコンパクトなトークンに柔軟に圧縮するLong-Short Visual Memory(LSVM)機構を導入する。
本研究では,ユーザ意図に整合した音声やアクションを付加したアバターを生成するために,ステートサイクル戦略とキャッシュスイッチング機構を組み込んだReasoning-Reaction Module (RRM)を提案する。
様々なシナリオに対する大規模な実験結果から,本手法は長期予測生成における最先端の視覚的整合性を実現し,複雑なユーザ・アバターインタラクションをリアルタイムに実現できることが示されている。
関連論文リスト
- Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation [71.38488610271247]
トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
現在のモデルは、真の対話的なコミュニケーションの感覚をまだ伝えていない。
本研究では,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
論文 参考訳(メタデータ) (2026-01-02T11:58:48Z) - StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-26T15:41:24Z) - Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。
重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。
生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文 参考訳(メタデータ) (2025-06-05T03:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。