論文の概要: Variable-Length Tokenization via Learnable Global Merging for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2606.20076v1
- Date: Thu, 18 Jun 2026 10:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.806112
- Title: Variable-Length Tokenization via Learnable Global Merging for Diffusion Transformers
- Title(参考訳): 拡散変換器の学習可能グローバルマージによる可変長トークン化
- Authors: Dong Hoon Lee, Seunghoon Hong,
- Abstract要約: トークンをマージすることで長さを変調する可変長トークン化器を提案する。
類似したトークンのマージを奨励することで、直接横断的な表現アライメントが可能になることを示す。
ImageNet 256$times $256 世代では、拡散トランスフォーマーと統合されたマージベースの可変長トークン化器が、より優れた gFID-計算トレードオフを実現する。
- 参考スコア(独自算出の注目度): 20.363335535997432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Diffusion Models (LDMs) have become dominant in visual synthesis, but their quality-compute trade-off is largely constrained by the tokenizer's fixed compression ratio. Variable-length tokenizers (VLTs) promise adaptive compression by varying token counts, allowing diffusion models to flexibly balance quality and compute. However, conventional VLTs modulate length by truncating ordered token sequences, which makes token semantics depend on token position and breaks representational alignment across lengths. This leads to a cross-length shift in the latent distribution that hinders a single variable-length diffusion model from operating effectively. To address this, we propose a novel variable-length tokenizer that modulates length by merging tokens. We show that encouraging similar tokens to merge enables direct cross-length representation alignment when the diffusion transformer operates according to the merging pattern. Since conventional merging methods are data-dependent, making the merging pattern inaccessible during generation, we introduce learnable global merging, which is data-independent, to ensure compatibility with diffusion transformers. On ImageNet 256$\times$256 generation, our merging-based variable-length tokenizer integrated with a diffusion transformer achieves a superior gFID-compute trade-off compared to prior VLT methods. Code is available at [this https URL](https://github.com/movinghoon/lgm)
- Abstract(参考訳): 遅延拡散モデル (LDMs) は視覚合成において支配的となっているが、その品質・計算トレードオフは、トークン化器の固定圧縮比に大きく制約されている。
可変長トークン化器(VLT)は、様々なトークン数による適応圧縮を約束し、拡散モデルが柔軟に品質と計算のバランスをとることができる。
しかし、従来のVLTは順序付きトークンシーケンスをトラッピングすることで長さを変調し、トークンのセマンティクスはトークンの位置に依存し、長さにまたがる表現的アライメントを損なう。
これは、単一の可変長拡散モデルが効果的に動作することを妨げる潜伏分布のクロス長シフトをもたらす。
そこで本稿では,トークンをマージして長さを変調する可変長トークン化手法を提案する。
拡散変換器がマージパターンに従って動作した場合、類似トークンのマージを奨励することで、直接クロス長の表現アライメントが可能になることを示す。
従来のマージ方式はデータに依存しており、生成時にマージパターンがアクセスできないため、データに依存しない学習可能なグローバルマージを導入し、拡散トランスフォーマーとの互換性を確保する。
ImageNet 256$\times$256 生成では、拡散変換器とマージベース可変長トークン化器を統合し、従来の VLT 法に比べて優れた gFID 計算トレードオフを実現する。
コードは[ this https URL](https://github.com/movinghoon/lgm)で入手できる。
関連論文リスト
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers [80.19461768457622]
Elastic Latent Interface Transformer (ELIT) は、入力画像サイズを計算から切り離すための、ドロップインでDiT互換のメカニズムである。
読み取りと書き込み クロスアテンション・レイヤは空間トークンとラテントの間で情報を移動し、重要な入力領域を優先する。
ImageNet-1K 512pxでは、ELITの平均利得は35.3%、FIDおよびFDDスコアは39.6%である。
論文 参考訳(メタデータ) (2026-03-12T17:57:04Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - Less Is More: Generating Time Series with LLaMA-Style Autoregression in Simple Factorized Latent Spaces [29.349850914912846]
離散化された量子化潜在空間上の自己回帰変換器と不整合分解を結合して時系列を生成する,シンプルで効果的なフレームワークであるFAR-TSを提案する。
LLaMAスタイルの自己回帰変換器はこれらのトークンシーケンスをモデル化し、任意の長さで高速かつ制御可能なシーケンスの生成を可能にする。
論文 参考訳(メタデータ) (2025-11-07T04:15:38Z) - A Transformer Inspired AI-based MIMO receiver [0.5039813366558306]
AttDetの設計は、モデルベースの解釈可能性とデータ駆動の柔軟性を組み合わせる。
5Gチャネルモデルと高次混合QAM変調および符号化方式のリンクレベルシミュレーションによる実演を行う。
AttDetは予測可能で現実的な複雑さを維持しながら、ほぼ最適のBER/BLERパフォーマンスにアプローチすることができる。
論文 参考訳(メタデータ) (2025-10-23T09:05:10Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。