論文の概要: Prompt2Effect: Training-Free Image-to-Video Model Specialization via LoRA Generation
- arxiv url: http://arxiv.org/abs/2606.13971v1
- Date: Thu, 11 Jun 2026 23:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.68156
- Title: Prompt2Effect: Training-Free Image-to-Video Model Specialization via LoRA Generation
- Title(参考訳): Prompt2エフェクト:LoRAジェネレーションによる訓練不要の画像-映像-映像モデルスペシャライゼーション
- Authors: Xiaomeng Yang, Yanyu Li, Gordon Guocheng Qian, Ivan Skorokhodov, Viacheslav Ivanov, Avalon Vinella, Xuan Zhang, Yanzhi Wang, Sergey Tulyakov, Anil Kag,
- Abstract要約: Prompt2Effectは、効果特異的なLoRA重みを1つの前方通過で直接合成することにより、効果ごとのトレーニングを改善できる、重量駆動型ハイパーネットワークである。
Prompt2Effect は従来の LoRA ファインタニングと比較してビデオ品質や効果アライメントに優れることを示した。
- 参考スコア(独自算出の注目度): 71.45435100897093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing Image-to-Video (I2V) diffusion models with specific visual effects is increasingly demanded for high-end video generation. Current practice requires training a separate Low-Rank Adaptation (LoRA) module for each effect, incurring substantial data curation and iterative optimization costs that hinder interactive control. We present Prompt2Effect, a weight-driven hypernetwork that amortizes per-effect training by directly synthesizing effect-specific LoRA weights in a single forward pass. Unlike prior hypernetworks that regress adapter weights purely from semantics, Prompt2Effect is explicitly conditioned on the frozen base model weights, grounding weight prediction in the structural geometry of each layer. Furthermore, instead of predicting raw LoRA matrices, we introduce an SVD-canonicalized parameterization that resolves factorization ambiguity and stabilizes large-scale weight synthesis. Together, these design principles enable accurate and scalable LoRA prediction for high-dimensional I2V diffusion models. Extensive experiments demonstrate that Prompt2Effect achieves on-par or superior video quality and effect alignment compared to conventional LoRA fine-tuning, while reducing the computational cost from 56 GPU training hours to 3.3 seconds of hypernetwork inference. When used as initialization for subsequent fine-tuning, our predicted weights further improve final performance and accelerate optimization by approximately 10x.
- Abstract(参考訳): 特定の視覚効果を持つ画像間拡散モデル(I2V)のパーソナライズが、ハイエンドのビデオ生成にますます求められている。
現在のプラクティスでは、各エフェクトに対して別々のローランド適応(LoRA)モジュールをトレーニングし、実質的なデータキュレーションと、インタラクティブな制御を妨げる反復最適化コストを発生させる必要がある。
Prompt2Effectは、効果特異的なLoRA重みを1つの前方通過で直接合成することにより、効果ごとのトレーニングを改善できる、重量駆動型ハイパーネットワークである。
アダプタが純粋にセマンティクスから重みを取り除いた以前のハイパーネットワークとは異なり、Prompt2Effectは凍結ベースモデルの重みに明示的に条件付けされ、各層の構造幾何学における重み予測の基礎となる。
さらに,生のLoRA行列を予測する代わりに,因子分解のあいまいさを解消し,大規模重量合成を安定化するSVDカノニカル化パラメタライゼーションを導入する。
これらの設計原則は、高次元I2V拡散モデルに対する正確でスケーラブルなLoRA予測を可能にする。
大規模な実験により、Prompt2Effectは従来のLoRAファインチューニングと比較して、ビデオ品質や効果の調整に優れており、計算コストは56GPUトレーニング時間から3.3秒のハイパーネットワーク推論に削減されている。
その後の微調整の初期化に使用すると、予測重みは最終性能をさらに向上し、約10倍の最適化を加速する。
関連論文リスト
- Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。
スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。
我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文 参考訳(メタデータ) (2026-04-21T06:27:18Z) - IPA: An Information-Preserving Input Projection Framework for Efficient Foundation Model Adaptation [56.72132739364876]
隠れた空間の情報を明示的に保存する特徴認識型プロジェクションフレームワークであるIPAを提案する。
IPAはLoRAとDoRAを一貫して改善し、平均1.5ポイントの精度でコモンセンス推論を行う。
論文 参考訳(メタデータ) (2025-09-04T17:10:01Z) - ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。
本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文 参考訳(メタデータ) (2025-07-09T23:52:31Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。