論文の概要: Edit the Bits, Diff the Codes: Bitwise Residual Editing for Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2606.13558v1
- Date: Thu, 11 Jun 2026 16:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.922891
- Title: Edit the Bits, Diff the Codes: Bitwise Residual Editing for Visual Autoregressive Models
- Title(参考訳): Bitwise Residual Editing for Visual Autoregressive Models
- Authors: Shengqiang Zhang, Ruotong Liao, Volker Tresp, Barbara Plank, Hinrich Schütze,
- Abstract要約: BitResEditは、Infinityのようなビットワイズ残留VARジェネレータのためのトレーニング不要のエディタである。
ソース-負のガイダンスは、共有編集プレフィックスで計算されたソース-ターゲットコントラストに沿って、ビットごとのポストCFGログ-oddを傾けることで実行される。
サンプルされたビットをスケールごとの連続コード残基に変換し、ローカライゼーションマスクでゲートし、ジェネレータのネイティブサム・オブ・スケールを通じて再注入する。
- 参考スコア(独自算出の注目度): 85.59447229497101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing with visual autoregressive (VAR) generators requires controlling both what the model samples and where the sampled change is written back into the image code. Existing VAR editors mainly operate on token streams, features, or flat next-token logits, leaving two native structures of bitwise-residual VAR models underused: the per-bit Bernoulli prediction head and the additive multi-scale residual code field from which the image is assembled. We propose BitResEdit, a training-free editor for bitwise-residual VAR generators such as Infinity. BitEdit performs source-negative guidance by tilting the post-CFG per-bit log-odds along a source--target contrast computed on a shared edited prefix, then projects each update into a closed-form Bernoulli-KL trust region around the clean CFG sampler. ResEdit converts the sampled bits into per-scale continuous-code residuals, gates them with a localization mask, and re-injects them through the generator's native sum-of-scales. Together they couple decision-time bit guidance with combination-time code composition, so masked-out latent features are preserved exactly by code arithmetic while localized, scale-aware edits are applied inside the target region. On PIE-Bench with Infinity-2B, BitResEdit attains the strongest text alignment among same-backbone VAR editors, improving CLIP on the edited region by +1.07 over the strongest prior editor while keeping background preservation competitive with it. Ablations show BitEdit and ResEdit play complementary roles in target alignment and background preservation.
- Abstract(参考訳): テキスト誘導画像編集と視覚自己回帰(VAR)ジェネレータは、モデルサンプルとサンプル変更がイメージコードに書き戻される場所の両方を制御する必要がある。
既存のVARエディタは、主にトークンストリーム、機能、フラットな次世代ロジットで動作し、ビット単位のVARモデルのネイティブな2つの構造、すなわちビット単位のBernoulli予測ヘッドと、イメージが組み立てられる付加的なマルチスケール残留コードフィールドが未使用のままである。
Infinityのようなビットワイズ残留VARジェネレータのためのトレーニング不要エディタBitResEditを提案する。
BitEditは、共有編集プレフィックスで計算されたソースターゲットコントラストに沿って、ビット単位のポストCFGログノードを傾けて、ソース負のガイダンスを実行し、クリーンCFGサンプルラの周りのクローズドフォームBernoulli-KL信頼領域に各更新を投影する。
ResEditはサンプルビットをスケールごとの連続コード残量に変換し、ローカライゼーションマスクでゲートし、ジェネレータのネイティブサム・オブ・スケールを通じて再注入する。
両者は、決定時間ビット誘導と組み合わせたコード合成を組み合わせ、マスク付き潜在機能は、コード演算によって正確に保存され、ローカライズされたスケールアウェアな編集は、対象領域内に適用される。
Infinity-2BのPIE-Benchでは、BitResEditは、同じバックボーンのVARエディタの中で最強のテキストアライメントを実現し、編集領域のCLIPを最強の前のエディタよりも+1.07改善し、バックグラウンドの保存を競争力を維持する。
BitEditとResEditは、ターゲットアライメントとバックグラウンド保存において補完的な役割を果たす。
関連論文リスト
- Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing [55.211537893248675]
本稿では,2つの補完コンポーネントを中心に構築された暗黙の推論ビデオ編集用DiTフレームワークであるRVEDiTを提案する。
RVEDiTは最先端のベースラインを一貫して上回り、特にローカライズされた編集や構成的な編集において大きな利益を得ている。
論文 参考訳(メタデータ) (2026-05-23T17:22:14Z) - Edit Where You Mean: Region-Aware Adapter Injection for Mask-Free Local Image Editing [28.295031615161136]
大規模な拡散変換器 (DiT) はグローバルな編集命令に従っているが、常に非関連領域に局所的な編集をリークする。
そこで我々はAdaptEditを紹介した。AdaptEditは、訓練された命令と地域対応のアダプタフレームワークである。
AdaptEditは最先端の結果を達成し、マスクフリーとオラクルマスクのベースラインを同時に上回る。
論文 参考訳(メタデータ) (2026-04-26T15:28:02Z) - SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - Group Relative Attention Guidance for Image Editing [38.299491082179905]
Group Relative Attention Guidance (GRAG) は、編集命令に対する入力画像に対するモデルの焦点を変調するシンプルで効果的な方法である。
私たちのコードはhttps://www.littlemisfit.com/little-misfit/GRAG-Image-Editing.comでリリースされます。
論文 参考訳(メタデータ) (2025-10-28T17:22:44Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。