論文の概要: FlowCodec: One-Step Flow Prior for Generative Image Compression
- arxiv url: http://arxiv.org/abs/2606.21030v1
- Date: Fri, 19 Jun 2026 01:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 08:54:21.302002
- Title: FlowCodec: One-Step Flow Prior for Generative Image Compression
- Title(参考訳): FlowCodec: 生成画像圧縮に先立つワンステップフロー
- Authors: Yinhuan Huang, Hao Cao, Pu chen, Wenqi Guo, Zhijin Qin,
- Abstract要約: FlowCodecは、トレーニング済みの大規模テキストイメージを超低ビットレート圧縮にプラグインするフレームワークである。
生成したバックボーンの0.54%未満のトレーニング可能なパラメータ数を保ちながら、多重をサポートすることができる。
実験によると、FlowCodecは1ピクセルあたり0.05ビット以下のパラメータで高い視覚的品質を保っている。
- 参考スコア(独自算出の注目度): 18.82368921159262
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion-based image compression methods, leveraging powerful generative priors, have demonstrated remarkable perceptual quality at ultra-low bitrates. However, adapting modern generative models to image compression often relies on carefully engineered conditioning or auxiliary branches, together with substantial retraining, and these costs grow as the models scale. This motivates an open question: Can stronger generative priors be integrated into compression through a simpler, more extensible design? To answer this, we propose FlowCodec, a streamlined framework that plugs pretrained large-scale text-to-image priors (e.g., Qwen-image-2512 and FLUX.1-dev) into ultra-low-bitrate codecs. FlowCodec decomposes the pipeline into two decoupled stages: (1) Latent Compression, which maps clean latents to bitrate-constrained noisy latents; and (2) Latent Transport, which leverages the pretrained prior to refine the noisy latents toward the clean ones in a single step. Notably, FlowCodec requires neither additional conditioning signals nor auxiliary networks. Furthermore, with lightweight adaptation, it can flexibly support multiple bitrates while keeping the number of trainable parameters below 0.54% of the generative backbone. Experiments show that FlowCodec preserves high visual quality at bitrates below 0.05 bits per pixel. The Qwen-image variant significantly outperforms existing methods in terms of LPIPS and DISTS, while both variants deliver higher PSNR and clearly faster encoding than existing one-step diffusion-based methods, with the FLUX variant also maintaining competitive decoding speed.
- Abstract(参考訳): 拡散に基づく画像圧縮法は、強力な生成前駆体を利用して、超低ビットレートで顕著な知覚品質を示す。
しかし、画像圧縮に近代的な生成モデルを適用する場合、しばしば注意深く設計された条件付けや補助的な分岐に頼り、相当な再訓練を行い、モデルがスケールするにつれてこれらのコストが増大する。
より単純な、より拡張可能な設計によって、より強力な生成前の先入観を圧縮に統合できるだろうか?
これに答えるために,我々は,事前トレーニング済みの大規模テキスト・画像(例えば,Qwen-image-2512,FLUX.1-dev)を超低ビットレートのコーデックにプラグインする,合理化フレームワークであるFlowCodecを提案する。
FlowCodecはパイプラインを2つの分離ステージに分解する。(1)遅延圧縮(Latent Compression)、(2)遅延圧縮(Latent Transport)。
特に、FlowCodecは追加のコンディショニング信号も補助ネットワークも必要としない。
さらに、軽量な適応により、複数のビットレートを柔軟にサポートし、生成するバックボーンの0.54%未満のトレーニング可能なパラメータ数を維持できる。
実験によると、FlowCodecは1ピクセルあたり0.05ビット未満のビットレートで高い視覚的品質を保っている。
Qwen-image 変種はLPIPS と DISTS の点で既存の手法よりも優れており、どちらの変種も既存の1ステップ拡散法よりもPSNRが高く、明らかに高速な符号化を提供しており、FLUX 変種は競合復号速度も維持している。
関連論文リスト
- ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。
RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。
これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文 参考訳(メタデータ) (2026-03-03T11:47:05Z) - Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression [54.1069581766925]
本稿では,既存の手法よりも高速に動作する効率的なゼロショット拡散圧縮法を提案する。
提案手法は,最近提案されたDenoising Diffusion Codebook Models (DDCM) 圧縮方式に基づいている。
ユーザが指定した領域を優先する優先度対応型であるTurbo-DDCMと、ターゲットのBPPではなくターゲットのPSNRに基づいて画像を圧縮する歪み制御型である。
論文 参考訳(メタデータ) (2025-11-09T15:41:27Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。