論文の概要: FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision
- arxiv url: http://arxiv.org/abs/2606.14049v1
- Date: Fri, 12 Jun 2026 02:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.722647
- Title: FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision
- Title(参考訳): FoleyGenEx:マルチモーダル制御、時間アライメント、セマンティック精度を備えた統合ビデオオーディオ生成
- Authors: Shiyao Wang, Xijuan Zeng, Hui Wang, Shiwan Zhao, Feng Deng, Chen Zhang, Yong Qin,
- Abstract要約: FoleyGenExは、マルチモーダル制御、フレームレベルの時間的アライメント、きめ細かいセマンティクスを統合する統合ビデオオーディオ(VTA)フレームワークである。
FoleyGenExは、オーディオ制御されたVTAとFoley拡張のための条件付きインジェクション機構、マルチモーダルな動的マスキング戦略、アドバーブベースのデータ拡張アルゴリズムの3つを通じて、このギャップを埋めている。
- 参考スコア(独自算出の注目度): 22.5140828601393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FoleyGenEx, a unified video-to-audio (VTA) framework integrating multi-modal control, frame-level temporal alignment, and fine-grained semantics, enabling synchronized, versatile audio synthesis for diverse tasks. Existing VTA methods either have multi-modal control but weak temporal alignment or strong alignment but lack reference audio conditioning and semantic precision. FoleyGenEx fills this gap via three core innovations: a conditional injection mechanism for audio-controlled VTA and Foley extension, a multi-modal dynamic masking strategy preserving training synchronization, and an adverb-based data augmentation algorithm leveraging signal processing and large language models to enhance textual supervision with nuanced semantics. Experiments on AudioCaps, VGGSound, and Greatest Hits demonstrate its competitive controllable VTA performance against existing methods. Demo samples are available at https://foleygenex.github.io/FoleyGenEx.
- Abstract(参考訳): 本稿では,マルチモーダル制御,フレームレベルの時間的アライメント,微粒なセマンティクスを統合したVTAフレームワークであるFoleyGenExについて述べる。
既存のVTA手法はマルチモーダル制御であるが、時間的アライメントが弱いか、強いアライメントがあるが、参照オーディオ条件とセマンティック精度は欠如している。
FoleyGenExは、オーディオ制御されたVTAとFoley拡張のための条件付きインジェクションメカニズム、トレーニング同期を保存するマルチモーダルな動的マスキング戦略、信号処理と大規模言語モデルを活用して、ニュアンスドセマンティクスによるテキスト管理を強化するアドバーブベースのデータ拡張アルゴリズムという3つのコアイノベーションによって、このギャップを埋めている。
AudioCaps、VGGSound、Greatest Hitsの実験では、既存のメソッドに対する競合制御可能なVTAパフォーマンスが実証されている。
デモサンプルはhttps://foleygenex.github.io/FoleyGenExで公開されている。
関連論文リスト
- AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation [111.61779149559645]
本稿では,様々なマルチモーダル条件を統合した任意のオーディオ生成のためのフレームワークであるAudioX-Turboを提案する。
AudioX-Turboのトレーニングを支援するため、約9.2Mサンプルからなる大規模で高品質なデータセットIF-caps-Proを構築した。
我々は、AudioX-Turboを幅広いタスクでベンチマークし、特にテキスト音声とテキスト音声生成において、我々のモデルが優れたパフォーマンスを達成することを発見した。
論文 参考訳(メタデータ) (2026-06-10T18:06:27Z) - FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts [33.4228845956243]
FoleyDirectorは、DiTベースのV2A生成において正確な時間的ガイダンスを可能にするフレームワークである。
ベースモデルのオーディオ品質を保ち、V2A生成と時間的に制御された合成をシームレスに切り替えることができる。
論文 参考訳(メタデータ) (2026-03-20T11:19:29Z) - AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-13T16:30:59Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。