論文の概要: AdaTok: Self-Budgeting Image Tokenization with Quality-Preserving Dynamic Tokens
- arxiv url: http://arxiv.org/abs/2606.07185v1
- Date: Fri, 05 Jun 2026 11:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.720846
- Title: AdaTok: Self-Budgeting Image Tokenization with Quality-Preserving Dynamic Tokens
- Title(参考訳): AdaTok: 品質を保った動的トークンによる自己予算型イメージトークン化
- Authors: Xiaocheng Lu, Yuxi Chen, Jie Zhang, Jian Liu, Jingcai Guo, Fangqi Zhu, Tao Han, Song Guo,
- Abstract要約: 自己予算の離散1DトークンであるAdaTokを提案する。
AdaTokは、トークンをネストしたテールマスクで注文する優先順位付き表現学習と、Adaptive Token Allocationを組み合わせたものだ。
ImageNet-1Kでは、AdaTok-Fullが256トークンでrFID 1.31に達し、AdaTok-Adaptiveは118トークンでrFID 1.50を達成する。
- 参考スコア(独自算出の注目度): 39.0104982235623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image tokenizers, from 2D grids to recent 1D sequences, typically encode every image with the same fixed number of tokens. Yet visual complexity is highly heterogeneous, so a uniform budget overspends on simple inputs and underserves complex ones. Existing elastic tokenizers expose variable-length reconstructions, but often leave token length as a deployment-time operating point, a search target, or an external prediction rather than an output of the tokenizer itself. In this work, we ask whether a discrete visual tokenizer can budget itself in one pass. Our central finding is that actionable elasticity requires a representation--allocation co-design: prefixes must remain decodable across budgets, and the tokenizer must learn which prefix each image needs. We propose AdaTok, a self-budgeting discrete 1D tokenizer. AdaTok combines Prioritized Representation Learning, which orders tokens with nested tail masking and resolves budget-dependent semantic shift through Multi-Head LoRA decoder heads, with Adaptive Token Allocation, which trains a lightweight deterministic-group GRPO policy over candidate budgets. Dynamic Pareto Weighting balances fidelity and efficiency during policy training without manual trade-off sweeps. On ImageNet-1K, AdaTok-Full reaches rFID 1.31 at 256 tokens, while AdaTok-Adaptive attains rFID 1.50 using only ~118 tokens on average, outperforming discrete 1D baselines at comparable budgets. In autoregressive image generation, the shorter adaptive representation yields ~2.1x throughput over a fixed 256-token decode, suggesting that visual token count can be learned as a content-conditioned output rather than set as a fixed hyperparameter.
- Abstract(参考訳): 2Dグリッドから最近の1Dシーケンスまでの画像トークンライザは、通常、すべての画像を同じ固定数のトークンでエンコードする。
しかし、視覚的複雑性は非常に不均一であるため、一様予算は単純な入力をオーバースペンドし、複雑なものを保存する。
既存の弾性トークン化器は、可変長の再構成を公開するが、しばしばトークン長を、トークン化器自体の出力ではなく、デプロイ時操作ポイント、検索ターゲット、外部予測として残す。
本研究では、離散的な視覚的トークン化器が1パスで自己予算化できるかどうかを問う。
我々の中心的な発見は、動作可能な弾力性には表現-割り当ての共設計が必要であるということだ。
自己予算の離散1DトークンであるAdaTokを提案する。
AdaTokは、トークンをネストしたテールマスクで順序付けし、マルチヘッドのLoRAデコーダヘッドを通じて予算依存のセマンティックシフトを解決する優先順位付け表現学習と、候補予算よりも軽量な決定論的グループGRPOポリシーをトレーニングするAdaptive Token Allocationを組み合わせた。
ダイナミックパレートウェイトリングは、手動のトレードオフのない政策トレーニングにおいて、忠実さと効率性をバランスさせる。
ImageNet-1Kでは、AdaTok-Fullが256トークンでrFID 1.31に達し、AdaTok-Adaptiveは平均118トークンでrFID 1.50を達成する。
自己回帰画像生成では、短い適応表現は256の復号符号よりも2.1倍のスループットを出力し、視覚トークンカウントは固定ハイパーパラメータとして設定されるのではなく、コンテンツ条件の出力として学習することができることを示唆している。
関連論文リスト
- CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - Improving Flexible Image Tokenizers for Autoregressive Image Generation [53.238708824055664]
textbfReToKは、アンダーライン冗長なアンダーラインToken Paddingと階層的セマンティック正規化を備えたフレキシブルなトークンライザである。
本手法は, フレキシブルかつ固定長のトークン化器と比較して, 優れた生成性能を実現する。
論文 参考訳(メタデータ) (2026-01-04T14:11:45Z) - Group Critical-token Policy Optimization for Autoregressive Image Generation [32.472222192052044]
主な障害は、AR生成中によりクリティカルな画像トークンを識別し、それらに対して効果的なトークンワイズ最適化を実装する方法にある。
具体的には、3つの観点からRLVRベースのAR生成における重要なトークンを識別する: $textbf(1)$ CausalDepend: 初期トークンは、一方向依存性による後のトークンと最終的な画像効果を根本的に決定する。
ARモデルと統合マルチモーダルモデルのための複数のテキスト・画像ベンチマーク実験は、その効果を実証する。
論文 参考訳(メタデータ) (2025-09-26T15:33:18Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。