論文の概要: Real-Time Interactive Music Generation via Data-Free Streaming Consistency Distillation
- arxiv url: http://arxiv.org/abs/2606.24307v1
- Date: Tue, 23 Jun 2026 08:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.852089
- Title: Real-Time Interactive Music Generation via Data-Free Streaming Consistency Distillation
- Title(参考訳): データフリーストリーミングによるリアルタイムインタラクティブ音楽生成
- Authors: Baisen Wang, Chenxi Bao, Qisong Han,
- Abstract要約: インタラクティブ音楽は人間のリアルタイム表現に依存している。
現代の生成音楽AIは、この領域にはほとんど欠落している。
このギャップを埋めるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.3115273020229667
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive music and live performance relies on real-time human expression, but modern generative music AI remains largely absent from this domain due to its prohibitive inference latency and offline rendering paradigm. To provide pioneer musicians with a novel medium for interactive composition, we should fundamentally change these static models into dynamic, playable instruments. In this paper, we propose a framework that bridges this gap. To achieve the low latency required for live interaction without sacrificing structural coherence, we formulate distillation within a streaming autoregressive latent space. Our approach gets rid of the need for expensive paired audio-latent datasets by utilizing prompt-only inputs to synthesize teacher-guided, chunk-wise trajectories on the fly. Because live instruments require high acoustic fidelity, we introduce music-aware consistency objectives, which combine latent, spectral, and temporal-difference losses, to preserve crucial qualities like timbre, transients, and rhythmic stability during accelerated single-step streaming generation. Implemented via parameter-efficient adaptation, our distillation reduces generation steps to achieve a low real-time factor. Crucially, by operating as a continuous autoregressive stream, the system can seamlessly assimilate dynamic human inputs on the fly, allowing users to instantly steer the musical trajectory without interrupting the audio flow. Ultimately, this work recontextualizes generative text-to-music models not as passive prompt-and-wait systems, but as responsive instruments, opening new frontiers for live human-AI musical co-creation.
- Abstract(参考訳): インタラクティブ音楽とライブパフォーマンスは、リアルタイムな人間の表現に依存しているが、現代の生成音楽AIは、その禁止された推論遅延とオフラインレンダリングパラダイムのために、この領域からほとんど欠落している。
インタラクティブな作曲のための新しい媒体を先駆的なミュージシャンに提供するためには、静的なモデルを動的に演奏可能な楽器に根本的に変える必要がある。
本稿では,このギャップを埋める枠組みを提案する。
構造的コヒーレンスを犠牲にすることなく, ライブインタラクションに必要な低レイテンシを実現するために, ストリーミング自己回帰潜在空間内での蒸留を定式化する。
提案手法では,教師が指導する,チャンク的な軌道をその場で合成するために,プロンプトのみの入力を活用することで,高価なペアオーディオレイテンシデータセットの必要性を解消する。
ライブ楽器は高い音響的忠実性を必要とするため,音色,過渡性,リズム安定性などの重要な特性を維持するために,潜時,スペクトル,時間差の損失を組み合わせた音楽認識の整合性を実現する。
パラメータ効率適応による蒸留により, 生成工程を短縮し, 低リアルタイム化を実現した。
重要なことは、連続的な自己回帰ストリームとして動作することにより、システムはフライ時に人間の動的な入力をシームレスに同化することができ、ユーザーはオーディオフローを中断することなく、即座に音楽の軌道を制御できる。
最終的に、この研究は、受動的プロンプト・アンド・ウェイトシステムではなく、レスポンシブ・楽器として、生成的テキスト・ツー・ミュージック・モデルを再定義し、人間とAIのライブ・ミュージック・コクリエーションのための新たなフロンティアを開拓した。
関連論文リスト
- LK Jam: System Architecture and Implementation of a Real-Time Human-AI Interactive Music Generation System using Role-Aware GRU [5.407906676682284]
LK_Jam(LK_Jam)は、リアルタイム・双方向のヒューマンコンピュータ・インタラクティブ音楽生成システムである。
軽量GRU(Gated Recurrent Unit)と高性能オーディオホストアーキテクチャをベースとしている。
論文 参考訳(メタデータ) (2026-06-19T01:03:44Z) - DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing [27.626489251186968]
ストリーミングオーディオ駆動拡散フレームワークであるDiscoForcingを紹介する。
不均一ノイズレベル下で訓練された拡散強制シーケンスモデルを用いて、リズミカル構造と位相ダイナミクスをキャプチャする。
因果関係や遅延制約にマッチしたベースラインよりも、より安定したロングホライゾンロールアウトとオーディオモーションアライメントを提供する。
論文 参考訳(メタデータ) (2026-05-27T13:47:40Z) - EchoAvatar: Real-time Generative Avatar Animation from Audio Streams [31.328378976492775]
本稿では,低レイテンシでストリーミング音声と音楽から連続的でコヒーレントなフルボディモーションを生成するための新しいフレームワークを提案する。
この制御性とストリーム音声駆動合成を組み合わせることで,音声エージェントを対話型ヒューマノイドアバターに変換するためのプラグアンドプレイソリューションとして機能する。
論文 参考訳(メタデータ) (2026-05-27T10:18:16Z) - NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control [59.6128550986024]
ナラスコア(NarraScore)は、感情が物語論理の高密度圧縮として働くという中心的な洞察に基づく階層的なフレームワークである。
NarraScoreは、グローバルな構造とローカルなダイナミズムを調和させるために、Dual-Branch Injection戦略を採用している。
NarraScoreは、無視可能な計算オーバーヘッドを伴う最先端の一貫性と物語のアライメントを実現している。
論文 参考訳(メタデータ) (2026-02-09T09:39:42Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - The Ghost in the Keys: A Disklavier Demo for Human-AI Musical Co-Creativity [59.78509280246215]
Aria-Duetは、人間のピアニストと最先端のジェネレーティブモデルであるAriaのリアルタイム音楽デュエットを容易にするインタラクティブシステムである。
音楽学的な観点からシステムのアウトプットを分析し,そのモデルがスタイリスティックなセマンティクスを維持でき,コヒーレントなフレーズのアイデアを発達させることができることを発見した。
論文 参考訳(メタデータ) (2025-11-03T15:26:01Z) - SAMUeL: Efficient Vocal-Conditioned Music Generation via Soft Alignment Attention and Latent Diffusion [0.0]
声調伴奏生成のための軽量潜時拡散モデルを提案する。
このモデルは、52倍高速な推論を実現しつつ、最先端システムと比較して220倍のパラメータ削減を実現している。
超軽量アーキテクチャは、コンシューマハードウェアへのリアルタイムデプロイメントを可能にし、対話型アプリケーションやリソース制約のある環境に対してAI支援音楽の作成を可能にする。
論文 参考訳(メタデータ) (2025-07-26T16:00:26Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers [53.63950017886757]
ReaLJamは、人間とトランスフォーマーをベースとしたAIエージェントが強化学習でトレーニングしたライブ音楽ジャミングセッションのためのインタフェースとプロトコルである。
エージェントが継続的にパフォーマンスを予測し,ユーザに対してその計画を視覚的に伝達する,予測という概念を用いてリアルタイムインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-28T17:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。