論文の概要: ZeroGVC: Zero-Shot Generative Video Compression with Autoregressive Diffusion Priors
- arxiv url: http://arxiv.org/abs/2606.22371v1
- Date: Sun, 21 Jun 2026 07:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.095175
- Title: ZeroGVC: Zero-Shot Generative Video Compression with Autoregressive Diffusion Priors
- Title(参考訳): ZeroGVC: 自己回帰拡散プリミティブによるゼロショット生成ビデオ圧縮
- Authors: Yixin Gao, Xiaohan Pan, Lin Liu, Xin Li, Zhibo Chen, Qi Tian,
- Abstract要約: 我々はゼロショット生成ビデオ圧縮フレームワークZeroGVCを提案する。
ZeroGVCは、画像群(GOP)の最初のフレームを符号化し、Codebook-Guided Autoregressive Latent Compressionを通じてその後のPフレームを表現する。
標準ビデオ圧縮ベンチマークの実験では、ZeroGVCは、追加のトレーニングを伴わずに、超低速度での知覚的再構成品質が優れたことを実証している。
- 参考スコア(独自算出の注目度): 52.50325804778549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent generative video compression methods leverage powerful generative priors to achieve perceptually pleasing reconstructions. However, most existing approaches require additional training to adapt generative models to produce realistic reconstructions from compact representations. In this paper, we propose ZeroGVC, a zero-shot generative video compression framework that leverages pretrained autoregressive diffusion priors for low-delay video reconstruction. ZeroGVC encodes the first frame of each group of pictures (GOP) with an image codec and represents subsequent P-frames through Codebook-Guided Autoregressive Latent Compression. This design is motivated by our observation that the compression scheme of denoising diffusion codebook models is effective in few-step consistency sampling. By selecting compact combinations of reproducible codebook noise vectors, ZeroGVC steers the latent denoising trajectory toward the target P-frame while allowing the decoder to reproduce the same trajectory in only a few denoising steps. In addition, we design an optional bidirectional reference mode that mitigates error propagation by leveraging the next I-frame context without introducing any additional bitrate overhead. Extensive experiments on standard video compression benchmarks demonstrate that ZeroGVC achieves superior perceptual reconstruction quality at ultra-low bitrates without any additional training.
- Abstract(参考訳): 近年の再生ビデオ圧縮手法は、知覚的快楽な再構成を実現するために、強力な生成先行を生かしている。
しかし、既存のほとんどのアプローチでは、コンパクト表現から現実的な再構成を生成するために生成モデルを適用するための追加の訓練が必要である。
本稿では,低遅延ビデオ再構成において,事前学習した自己回帰拡散を生かしたゼロショット生成ビデオ圧縮フレームワークZeroGVCを提案する。
ZeroGVCは、画像群(GOP)の最初のフレームを画像コーデックでエンコードし、Codebook-Guided Autoregressive Latent Compressionを通じてその後のPフレームを表現する。
本設計は,拡散符号ブックモデルの圧縮スキームが数ステップの一貫性サンプリングに有効であることを示す。
再現性のあるコードブックノイズベクトルのコンパクトな組み合わせを選択することで、ZeroGVCは目標のPフレームに対して遅延なデノベーション軌道を操り、デコーダは同じトラジェクトリをほんの数ステップで再現することができる。
さらに,新たなビットレートオーバヘッドを導入することなく,次のIフレームコンテキストを活用することで,エラーの伝播を緩和するオプションの双方向参照モードを設計する。
標準ビデオ圧縮ベンチマークの大規模な実験により、ZeroGVCは、追加のトレーニングなしで超低ビットレートでの知覚的再構成品質が向上することを示した。
関連論文リスト
- Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow [1.8898767128464697]
emphGenerative Video Codebook Codec (GVCC)は、事前訓練されたビデオ生成モデルをそれ自体に変換するゼロショットフレームワークである。
この統合されたバックボーン上に構築された3つの条件付け戦略 – emphImage-to-Video (I2V), emphText-to-Video (T2V), emphFirst-Last-Frame-to-Video (FLF2V) – をインスタンス化する。
論文 参考訳(メタデータ) (2026-03-27T16:33:20Z) - ProGVC: Progressive-based Generative Video Compression via Auto-Regressive Context Modeling [10.843021248963305]
本稿では,プログレッシブ・トランスミッション,効率的なエントロピー・コーディング,ディテール・シンセサイザーを統一したプログレッシブ・ベース・ジェネレーティブ・ビデオ圧縮フレームワークを提案する。
ProGVCは、ビデオを階層的なマルチスケールの残留トークンマップにエンコードし、粗いサブセットをプログレッシブな方法で送信することで、フレキシブルなレート適応を可能にする。
論文 参考訳(メタデータ) (2026-03-18T09:51:39Z) - Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence [30.812937732503457]
Free-GVCは、トレーニング不要な生成ビデオ圧縮フレームワークである。
本手法は,ビデオセグメントをコンパクトなラテント空間に符号化し,グループ・オブ・ピクチャーズレベルで動作させる。
実験の結果、Free-GVCは最新のニューラルDCVC-RTよりも平均93.29%のBD-Rate還元を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-10T15:12:51Z) - Generative Neural Video Compression via Video Diffusion Prior [33.164111717707414]
高度なビデオ生成基盤モデルに基づくDiTベースの生成ニューラルビデオ圧縮フレームワーク
高度なビデオ生成基盤モデルに基づく第1のDiTベース生成ニューラルビデオ圧縮フレームワーク
論文 参考訳(メタデータ) (2025-12-04T17:27:32Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。