論文の概要: Chorus II: Cross-Request Sparsity Reuse for Efficient Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2606.25040v1
- Date: Tue, 23 Jun 2026 18:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.109184
- Title: Chorus II: Cross-Request Sparsity Reuse for Efficient Image-to-Video Generation
- Title(参考訳): Chorus II: 画像と映像を効率よく生成するクロスリクエストスパリティリユース
- Authors: Hao Liu, Chenghuan Huang, Hao Liu, Xing Cai, Chen Li, Ziyang Ma, Jing Lyu, Nong Xiao, Jiangsu Du,
- Abstract要約: 我々は,thabfsparsity の再利用を主眼とした相互要求再利用フレームワークを提案し,軽量な textbfgui 拡張によって保護される任意の拡張として dancebffeature の再利用を提案する。
スパシティの再利用は共有スパースマスクの再利用として実装され、類似の履歴要求から高品質スパースマスクを再利用し、要求毎のオンラインマスク予測を回避する。
- 参考スコア(独自算出の注目度): 16.792916782258526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving diffusion models for image-to-video generation is computationally expensive, posing significant challenges for large-scale deployment. Real I2V workloads often contain similar requests, such as repeated effect templates, related subjects, and recurring shot layouts. Existing cross-request acceleration methods mainly exploit this redundancy through feature reuse. We observe that similar I2V requests also share highly consistent sparse attention patterns, enabling historical sparse masks to serve as request-conditioned priors with almost no online mask-prediction overhead. We propose a cross-request reuse framework centered on \textbf{sparsity reuse}, with \textbf{feature reuse} as an optional extension safeguarded by a lightweight \textbf{guidance enhancement}. Our sparsity reuse is implemented as shared sparse mask reuse, which reuses high-quality sparse masks from similar historical requests to avoid per-request online mask prediction. Optional feature reuse applies downsampled computation to highly redundant spatiotemporal regions, mitigating boundary artifacts while preserving efficiency gains. Guidance enhancement reinforces image/text conditioning after reuse, mitigating semantic drift and condition-adherence issues. Experiments show that default sparsity reuse configuration preserves generation quality with a \textbf{2.16$\times$} speedup.
- Abstract(参考訳): 画像対ビデオ生成のための拡散モデルの実現は計算コストがかかり、大規模展開には大きな課題が伴う。
実際のI2Vワークロードには、繰り返しエフェクトテンプレート、関連する主題、繰り返しショットレイアウトなど、同様の要求が含まれていることが多い。
既存のクロスリクエスト・アクセラレーション手法は主に特徴の再利用を通じてこの冗長性を利用する。
類似のI2V要求は、高度に一貫したスパースアテンションパターンを共有しており、過去のスパースマスクが、オンラインマスク予測オーバーヘッドのほとんどなく、要求条件付き先行として機能することを可能にしている。
本稿では,軽量な \textbf{guidance enhancement} によって保護された任意の拡張として, \textbf{sparsity reuse} を中心とした相互要求再利用フレームワークを提案する。
スパシティの再利用は共有スパースマスクの再利用として実装され、類似の履歴要求から高品質スパースマスクを再利用し、要求毎のオンラインマスク予測を回避する。
任意の特徴の再利用は、高冗長な時空間領域にダウンサンプル計算を適用し、効率を保ちながら境界アーチファクトを緩和する。
ガイダンス強化は、再利用後の画像/テキストコンディショニングを強化し、セマンティックドリフトを緩和し、条件順守問題を緩和する。
実験によると、デフォルトのスパーシリティの再利用構成は、生成品質を \textbf{2.16$\times$} のスピードアップで保存する。
関連論文リスト
- miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity [21.54829080388454]
MLLM(Multimodal large language model)は、最近ポイントワイド・リランカとして大きな可能性を示している。
しかし、ポイントワイドリグレードは、クエリーとドキュメントのペア間で大幅に繰り返される計算に悩まされる。
本稿では,キャッシュ再利用の効率化と性能の見直しを両立させる,$textitvision-first$の定式化を提案する。
論文 参考訳(メタデータ) (2026-06-09T12:11:02Z) - CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration [47.52310736101766]
自動回帰(AR)モデルは最近画像生成において顕著な進歩を遂げ、拡散ベースのアプローチに匹敵するパフォーマンスを実現している。
我々は、デバイス上での自己検証を利用して視覚合成の2つの重要な特性を扱うクラウド・デバイス・コラボレーション・フレームワークである textbfCIAR を通じてこの問題に対処する。
提案手法は, 連続確率間隔を用いて処理を高速化し, 大規模視覚語彙で実現可能なオンデバイストークン不確実性定量化器に重点を置いている。
論文 参考訳(メタデータ) (2026-03-26T14:04:50Z) - ExGS: Extreme 3D Gaussian Compression with Diffusion Priors [60.7245825868903]
エクストリーム3DGS圧縮のためのExGSとGaussPainterを紹介する。
GassPainterは、欠落した領域を埋め、可視画素を強化し、劣化したレンダリングを大幅に改善する。
私たちのフレームワークは100X圧縮(典型的な354.77MBモデルから約3.31MBまで)も達成できます。
論文 参考訳(メタデータ) (2025-09-29T13:23:06Z) - RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration [94.49712266736141]
RAM++はオールインワンイメージ復元のための2段階のフレームワークである。
高レベルのセマンティック理解と低レベルのテクスチャ生成を統合する。
極端なシナリオでは、既存の劣化指向のメソッドの制限に対処します。
論文 参考訳(メタデータ) (2025-09-15T15:24:15Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Masked Autoencoders are Robust Data Augmentors [9.819398274610933]
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
マスク付き画像モデリングを自己教師付き学習に適用した最近の成功に触発され、自己教師付きマスク付きオートエンコーダを採用した。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。