論文の概要: LiteVSR: Lightweight Adaptation of Frozen Diffusion Transformers for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2606.09250v1
- Date: Mon, 08 Jun 2026 09:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.893569
- Title: LiteVSR: Lightweight Adaptation of Frozen Diffusion Transformers for Video Super-Resolution
- Title(参考訳): LiteVSR:超解像用冷凍拡散変圧器の軽量化
- Authors: Yu Cao, Ziquan Liu, Zhensong Zhang, Jiankang Deng, Shaogang Gong, Jifei Song,
- Abstract要約: 軽量な状態認識適応器を備えた冷凍トランスフォーマーを用いて,ビデオ超解法(VSR)を実現するミニマリストフレームワークを提案する。
LiteVSRは、たった11.25%のトレーニング可能なパラメータと1つのA100での12GPU時間のトレーニングで競争力のある復元品質を実現し、高速サンプリング(単一ステップまで)の互換性を維持している。
- 参考スコア(独自算出の注目度): 73.85089704122315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large-scale pre-trained video generators for Video Super-Resolution (VSR) in novel domains remains computationally prohibitive. Methods that reformulate generation as direct Low-Quality to High-Quality mappings deviate from the original generative formulation, demanding extensive fine-tuning. ControlNet-style adapters lose their efficiency under modern Diffusion Transformers since the absence of encoder-decoder hierarchy forces duplication of the entire backbone. We observe that flow matching offers a principled alternative for cross-domain VSR adaptation. By predicting a constant velocity field across all timesteps, the adaptation task reduces to learning a fixed injection pattern rather than time-varying transformations. Building on this insight, we propose LiteVSR, a minimalist framework that performs VSR using a completely frozen Diffusion Transformer with a lightweight State-Aware Adapter. The adapter employs a dual-stream architecture that extracts static structural cues from the LQ input and dynamic cues from intermediate denoising states, aligning them through time-dependent cross-attention to enable adaptive transition from structural alignment to texture refinement as denoising proceeds. LiteVSR achieves competitive restoration quality with only 11.25% trainable parameters and 12 GPU-hours of training on a single A100, while maintaining fast sampling (down to a single step) compatibility.
- Abstract(参考訳): ビデオスーパーリゾリューション(VSR)のための大規模事前学習ビデオジェネレータの新規領域への適応は、計算的に禁止されている。
生成を直接低品質から高品質のマッピングとして再構成する手法は、元の生成的定式化から逸脱し、広範囲の微調整を要求する。
ControlNetスタイルのアダプタは、エンコーダ/デコーダ階層がないため、現代の拡散変換器の下で効率が低下する。
我々は、フローマッチングが、ドメイン間VSR適応の原則的な代替となることを観察する。
全ての時間ステップで一定の速度場を予測することにより、適応タスクは時間変化の変換よりも固定注入パターンの学習に還元される。
この知見に基づいて、我々は、完全に凍結された拡散変換器と軽量な状態認識適応器を用いてVSRを実行する最小限のフレームワークであるLiteVSRを提案する。
このアダプタは、LQ入力から静的な構造的キューを抽出し、中間復調状態から動的キューを抽出し、時間依存のクロスアテンションを通じて整列させ、復調処理の進行に伴って構造的アライメントからテクスチャリファインメントへの適応的な遷移を可能にする。
LiteVSRは、たった11.25%のトレーニング可能なパラメータと1つのA100での12GPU時間のトレーニングで競争力のある復元品質を実現し、高速サンプリング(単一ステップまで)の互換性を維持している。
関連論文リスト
- Beyond Quadratic: Linear-Time Change Detection with RWKV [48.3313296326424]
ChangeRWKVは、リモートセンシングによる変更検出のための新しいアーキテクチャである。
トランスフォーマーの並列化可能なトレーニングとRNNの線形時間推論を組み合わせる。
LEVIR-CDベンチマークでは85.46%のIoUと92.16%のF1スコアで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-03-20T03:23:02Z) - VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文 参考訳(メタデータ) (2026-01-25T13:22:38Z) - FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。
A100 GPUで768x1408ビデオの約17FPSで動作する。
超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-10-14T17:25:54Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition [41.654675205772485]
本稿では,多層テンソルリング分解(TRD)に基づく視覚言語微調整フレームワークAdaRingを提案する。
実験の結果,提案したAdaRingは,平均トレーニングパラメータを90%削減しつつ,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-16T01:56:27Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable
End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成した
エンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。
Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文 参考訳(メタデータ) (2020-08-13T08:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。