論文の概要: HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing
- arxiv url: http://arxiv.org/abs/2606.13898v1
- Date: Thu, 11 Jun 2026 20:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.645495
- Title: HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing
- Title(参考訳): HiLo-Token:効率的な画像編集のための入力適応型高周波Token圧縮
- Authors: Haoran You, Yotam Nitzan, Lingzhi Zhang, Yifan Gong, Mang-Tik Chiu, Connelly Barnes, Yan Kang, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi,
- Abstract要約: PhotoshopのRemoveやGenerative Fillボタンのような創造的な画像編集ツールは、日々の顧客利用の中心である。
現在の生成AIモデルは、畳み込みベースのU-Netから拡散変換器(DiT)への移行において、重大なレイテンシの課題に直面している。
- 参考スコア(独自算出の注目度): 42.67265660673312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced when transitioning from convolution-based U-Nets to Diffusion Transformers (DiTs). In our evaluation on hundreds of representative image editing samples spanning a wide range of mask ratios, the DiT module alone accounts for an average of 73% of the total model latency, even after being distilled from 50 timesteps down to 8 timesteps. To tackle this challenge, we propose $\textbf{HiLo-Token}$, an input-adaptive token compression framework that allocates more token budget to high-frequency, rich-context regions while assigning fewer tokens to low-frequency areas. Specifically, for the editing region specified by the user mask, we retain all tokens within a dilated mask to preserve strong locality and contextual relevance. Outside the editing region, we introduce a simple yet effective high-frequency token selection strategy based on spatial frequency to capture important local details, while using tokens from a 16x downsampled image to represent low-frequency components and preserve the blurry but global structure. Extensive experiments on production-level evaluation data validate the effectiveness of the proposed method, achieving 3.13x, 2.59x, and 1.67x DiT speedups on A100-80GB for image editing tasks across small, medium, and large mask ratio categories with average ratios of 6.38%, 15.92%, and 35.36%, respectively, without any regression in generation quality.
- Abstract(参考訳): PhotoshopのRemoveやGenerative Fillボタンのような創造的な画像編集ツールは、日々の顧客利用の中心であり、PhotoshopとLightroomのトラフィックの大部分を占めている。
しかし、現在の生成AIモデルは、畳み込みベースのU-NetからDiT(Diffusion Transformer)への移行時にさらに顕著になる、重大なレイテンシの課題に直面している。
マスク比の幅が広い数百の代表的な画像編集サンプルについて評価し,50段階から8段階まで蒸留した後でも,DiTモジュールだけでモデル全体の遅延の73%を占めた。
この課題に対処するために、入力適応型トークン圧縮フレームワークである$\textbf{HiLo-Token}$を提案する。
具体的には、ユーザマスクが指定した編集領域に対して、拡張マスク内に全てのトークンを保持し、強い局所性と文脈的関連性を維持する。
編集領域の外では、空間周波数に基づく単純かつ効果的な高周波トークン選択戦略を導入し、重要な局所的詳細を捉えるとともに、16xダウンサンプル画像からのトークンを用いて低周波成分を表現し、曖昧だが大域的な構造を保存する。
A100-80GBで3.13x, 2.59x, 1.67x DiTの高速化を実現し, 生成品質の劣化を伴わない平均比6.38%, 15.92%, 35.36%で画像編集作業を行う。
関連論文リスト
- MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale [32.89343828792041]
階層化画像生成と編集は、生成したビジュアルコンテンツのレイヤワイドな再利用、編集、合成を可能にする基本的な機能である。
多層透明画像の生成と編集に適した20Bパラメータマスク領域拡散モデル MRT を提案する。
共有マスキング領域拡散フレームワークにおいて,テキスト・ツー・レイヤ,画像・ツー・レイヤ,レイヤ・ツー・レイヤの3つの補完的タスクを統合する。
論文 参考訳(メタデータ) (2026-05-26T16:16:19Z) - PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization [20.545082186848287]
そこで我々は,編集領域の正確な接地トラスマスクを生成するための,完全に自動化されたマスクアノテートフレームワークを提案する。
また、3重ストリームバックボーンと画像内コントラスト学習を備えた効果的なフォージェリーローカライゼーションネットワークであるICL-Netを提案する。
提案手法は,PromptForge-350k上で62.5%のIoUを達成し,SOTA法を5.1%上回った。
論文 参考訳(メタデータ) (2026-03-31T07:54:58Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - SparseDiT: Token Sparsification for Efficient Diffusion Transformer [33.91304273754431]
Diffusion Transformers (DiT)は、その優れた生成性能で有名である。
DiTは、自己注意の二次的な複雑さと必要な広範囲なサンプリングステップのために、かなりの計算コストで制約されている。
SparseDiTは空間的および時間的次元にまたがるトークンスペーシフィケーションを実装した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-12-08T18:59:16Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。