論文の概要: IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder
- arxiv url: http://arxiv.org/abs/2606.11096v1
- Date: Tue, 09 Jun 2026 16:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.62342
- Title: IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder
- Title(参考訳): IDEAL:In-depth alignmentは、離散表現オートエンコーダを作る
- Authors: Yitong Chen, Zijie Diao, Junke Wang, Lingyu Kong, Yixuan Ren, Bo He, Yu-Gang Jiang, Zuxuan Wu,
- Abstract要約: 離散表現自動符号化のための奥行きアライメントフレームワークであるIdealを提案する。
量子化トークンを浅いVFM機能と深いVFM機能の両方に合わせることで、結果の離散的な視覚トークンを視覚的忠実性とリッチなセマンティクスの両方を保存することができる。
- 参考スコア(独自算出の注目度): 74.25043153401586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM representations do not preserve sufficient fine-grained visual detail. This limitation becomes even more severe after discretization, where missing low-level information is difficult to recover. In fact, we observe that shallow VFM features retain considerably richer local appearance and structural detail, which complements the high-level semantics carried by deep features used in existing RAEs. Motivated by this complementary property, we propose Ideal, an In-depth Alignment framework for discrete representation autoencoding. By jointly aligning quantized tokens with both shallow and deep VFM features, Ideal enables the resulting discrete visual tokens to preserve both visual fidelity and rich semantics. Extensive experiments demonstrate that Ideal yields superior reconstruction performance, achieving 0.61 rFID on ImageNet and outperforming the previous best method by 0.28. When used for autoregressive image generation, Ideal further produces a gFID of 1.89, establishing a new state of the art for autoregressive image generation.
- Abstract(参考訳): 事前学習された視覚基盤モデル(VFM)に基づいて構築された表現オートエンコーダ(RAE)は、画像生成のための意味的にリッチな潜在空間を構築するための有望なアプローチとして最近登場した。
しかし、深いVFM表現は十分なきめ細かな視覚的詳細を保存できないため、その復元品質はしばしば最適以下である。
この制限は、低レベル情報の欠如が回復し難い離散化後にさらに深刻になる。
実際,従来のRAEの深い特徴によってもたらされる高レベルの意味を補完する,局地的外観と構造的細部が比較的豊富に保たれている。
この相補的特性により、離散表現の自動符号化のための奥行きアライメントフレームワークであるIdealを提案する。
量子化トークンを浅いVFMと深いVFMの両方の特徴と組み合わせることで、Idealは結果の離散的な視覚トークンを視覚的忠実性とリッチなセマンティクスの両方を保存することができる。
大規模な実験により、IdealはImageNet上で0.61 rFIDを達成し、以前のベストメソッドを0.28で上回った。
自己回帰画像生成に使用する場合、Idealはさらに1.89のgFIDを生成し、自己回帰画像生成のための新しい最先端技術を確立する。
関連論文リスト
- Vision Foundation Models as Generalist Tokenizers for Image Generation [43.17659097958283]
凍結視覚基礎モデル(VFM)上に一般画像トークン化器を構築する。
離散空間と連続空間の両方でシームレスに動作可能なトークン化器 VFMTok を提案する。
VFM事前学習中に利用した自己教師型学習目標が,トークン化器としての有効性を規定していることが判明した。
論文 参考訳(メタデータ) (2026-05-18T13:38:43Z) - Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation [33.56782043207013]
Feature Auto-Encoder (FAE) は、学習済みの視覚表現を、単一の注意層としてほとんど使用せずに生成に適した低次元の潜伏子に適応させる。
FAEはクラス条件とテキスト・ツー・イメージのベンチマークで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-08T18:57:26Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。