論文の概要: SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2606.20543v1
- Date: Thu, 18 Jun 2026 17:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.041733
- Title: SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation
- Title(参考訳): SSD:空間的投機的デコードにより自動回帰画像生成が加速
- Authors: Shilong Xiang, Zirui Zhang, Lijun Yu, Chengzhi Mao,
- Abstract要約: 本稿では,画像の自然な形状と予測目的を一致させるフレームワークである空間的投機的デコーディングを紹介する。
この結果から,視覚の幾何学を尊重することで,膨大な計算効率が確保できることが示唆された。
- 参考スコア(独自算出の注目度): 19.15882131245149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models excel in visual generation by treating images as 1D sequences of discrete tokens, mirroring language modeling. However, this flattening discards the intrinsic 2D spatial locality of visual signals, creating severe computational bottlenecks during inference. We introduce Spatially Speculative Decoding (SSD), a framework that aligns the predictive objective with the natural geometry of images. Rather than predicting only the immediate next token in a 1D sequence, our model simultaneously predicts the adjacent horizontal token and the token directly below it. By capitalizing on this 2D spatial correlation, spatially speculative decoding overcomes the memory wall in visual inference. Our approach accelerates autoregressive image generation by up to 13.3x while maintaining high fidelity on DPG-Bench and GenEval. Our results suggest that respecting the underlying geometry of vision unlocks massive computational efficiencies, paving the way for real-time, high-resolution autoregressive generative models.
- Abstract(参考訳): 自己回帰モデルは、画像を離散トークンの1次元シーケンスとして扱い、言語モデリングをミラーリングすることで、視覚生成において優れている。
しかし、この平坦化は視覚信号の固有2次元空間的局所性を排除し、推論中に深刻な計算ボトルネックを生じさせる。
画像の自然な形状と予測目的を一致させるフレームワークである空間的投機的復号法(SSD)を導入する。
1Dシークエンスにおける直近の次のトークンのみを予測するのではなく、我々のモデルは隣接する水平トークンとその真下にあるトークンを同時に予測する。
この2次元空間相関を利用して、空間的投機的復号化は、視覚的推論において記憶壁を克服する。
提案手法は, DPG-BenchとGenEvalの高忠実度を維持しながら, 自己回帰画像生成を最大13.3倍高速化する。
この結果から,視覚の幾何学を尊重することで,膨大な計算効率が確保され,リアルタイム・高分解能自己回帰生成モデルへの道が開けることが示唆された。
関連論文リスト
- Robust Dreamer: Deviation-Aware Latent Gaussian Memory for Action-Controlled AR Video Generation [89.70897512515477]
アクション制御された画像対ビデオ生成は、インタラクティブな世界シミュレーションにおいて有望なパラダイムであり、各制御信号が即時視覚応答を誘発する。
長時間の自己回帰的なロールアウトに対する視覚的忠実さと3D一貫性を維持することは依然として難しい。
既存の3D認識手法は、textitLatent--RGB Cyclingからの情報損失と、textiterror-free仮説によって引き起こされるトレーニング-推論ギャップという2つの障害により、破滅的なドリフトに悩まされることが多い。
textbfRobust Dreamerという,メモリ拡張フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-05-29T05:21:33Z) - Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective [47.87649021414188]
本稿では,線形複雑性を伴う空間コンテキストに選択的に注目する自己回帰画像生成装置LASADGenを提案する。
ImageNetの実験では、LASADGenは最先端の画像生成性能と計算効率を達成する。
論文 参考訳(メタデータ) (2025-07-02T12:27:06Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。