論文の概要: Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping
- arxiv url: http://arxiv.org/abs/2606.23682v1
- Date: Mon, 22 Jun 2026 17:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:09:58.318879
- Title: Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping
- Title(参考訳): 基本性を維持する: トークンドロップによる効率的な参照条件生成
- Authors: Rishubh Parihar, Ayush Raina, R. Venkatesh Babu, Or Patashnik,
- Abstract要約: 本稿では,参照トークンの少ないサブセットのみを保持することでスパース参照表現を構築する方法であるスパースコンテキストを提案する。
モデルを変更することなく、推論時に参照トークンのかなりの部分を落としてしまうと、その生成能力は大きく保たれます。
提案手法は,複数参照生成のための推論速度を4倍に向上し,単一参照生成のための2倍に向上することを示す。
- 参考スコア(独自算出の注目度): 37.53072128034311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-based diffusion models enable highly controllable image generation by leveraging elements from input images to guide prompt-driven synthesis. However, these models are computationally expensive in runtime, and their cost scales severely with the number of input references. While the efficiency of diffusion models has been extensively studied in the context of prompt-driven generation, it remains largely under-explored in the realm of reference-based models. This setting presents unique challenges not addressed by methods focusing solely on generation. In particular, the wasteful representation of references as dense token grids offers significant opportunities for improvement. In this work, we present Sparse Context, a method for constructing sparse reference representations by retaining only a reduced subset of reference tokens. We observe that even without modifying the model, dropping a significant portion of reference tokens at inference time largely preserves its generation capabilities. To fully realize this potential, we fine-tune the model with random token dropping at varying ratios, encouraging robustness to partial reference representations. Crucially, this training strategy decouples the model from any specific token selection rule, allowing flexible control at inference time. At inference time, instead of random dropping, we apply task-aware token selection strategies that prioritize the most informative regions of the reference images, adapting the token budget to the input and task requirements. Extensive experiments show our method achieves a 4x increase in inference speed for multi-reference generation and an 2x for single reference generation. Importantly, this efficiency is achieved without compromising visual quality across both spatially-aligned editing and subject-driven generation.
- Abstract(参考訳): 参照ベース拡散モデルは、入力画像からの要素を活用してプロンプト駆動合成を誘導することにより、高制御可能な画像生成を可能にする。
しかし、これらのモデルは実行時に計算コストが高く、そのコストは入力参照数とともに著しくスケールする。
拡散モデルの効率は、プロンプト駆動生成の文脈で広く研究されているが、参照ベースモデルの領域では、ほとんど探索されていない。
この設定は、生成のみに焦点をあてるメソッドによって対処されないユニークな課題を提示します。
特に、高密度なトークングリッドとしての参照の無駄な表現は、改善のための重要な機会を提供する。
本研究では,参照トークンの少ないサブセットのみを保持することでスパース参照表現を構築する手法であるスパースコンテキストを提案する。
モデルを変更することなく、推論時に参照トークンのかなりの部分を落としてしまうと、その生成能力は大きく保たれます。
この可能性をフルに実現するために、ランダムトークンのドロップを様々な比率で微調整し、部分参照表現に対する堅牢性を奨励する。
このトレーニング戦略は、特定のトークン選択ルールからモデルを分離し、推論時に柔軟な制御を可能にする。
推論時には、ランダムドロップの代わりに、参照画像の最も情報性の高い領域を優先するタスク対応トークン選択戦略を適用し、トークン予算を入力およびタスク要求に適応させる。
大規模な実験により,マルチ参照生成における推論速度は4倍に向上し,単一参照生成では2倍に向上した。
重要なことに、この効率性は、空間的に整列した編集と主観的生成の両方で視覚的品質を損なうことなく達成される。
関連論文リスト
- Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、高速サンプリングによる高忠実度生成のための効率的な残留ベクトル量子化に基づく生成モデルである。
我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。
RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文 参考訳(メタデータ) (2024-12-13T15:31:17Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。