Fugu-MT 論文翻訳(概要): AnchorEdit: Maintaining Temporal Consistency in Multi-turn Image Editing via Causal Memory

論文の概要: AnchorEdit: Maintaining Temporal Consistency in Multi-turn Image Editing via Causal Memory

arxiv url: http://arxiv.org/abs/2606.11751v2
Date: Mon, 15 Jun 2026 08:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 13:45:31.107953
Title: AnchorEdit: Maintaining Temporal Consistency in Multi-turn Image Editing via Causal Memory
Title（参考訳）: AnchorEdit: 因果記憶によるマルチターン画像編集における時間一貫性の維持
Authors: Hang Xu, Xiaoxiao Ma, Guohui Zhang, Yu Hu, Siming Fu, Jie Huang, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao,
Abstract要約: マルチターン画像編集は反復的な設計には不可欠であるが、現在のモデルは連続するステップでアイデンティティのドリフトやエラーの蓄積に悩まされることが多い。 AnchorEditは,高解像度・長期マルチターン編集に特化して設計された,最初の自己回帰(AR)拡散ベースのフレームワークである。
参考スコア（独自算出の注目度）: 58.322260363577016
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-turn image editing is essential for iterative design, yet current models often struggle with identity drift and error accumulation over successive steps. While existing research leverages video priors for consistency, their reliance on bidirectional attention is fundamentally misaligned with the causal, sequential nature of interactive editing. In this paper, we propose AnchorEdit, the first autoregressive (AR) diffusion-based framework designed specifically for high-resolution, long-term multi-turn editing. AnchorEdit bridges the gap between video priors and causal inference through a three-stage training curriculum: identity-preserving sing-turn pretraining, causal AR forcing fine-tuning with a novel self-rollout strategy to mitigate exposure bias, and consistency distillation for efficient 4-step generation. During inference, we introduce a memory mechanism to anchor the initial subject identity and ensure stable extrapolation across extended editing trajectories. To evaluate performance, we provide a new high-resolution multi-turn editing benchmark designed to stress-test long-horizon stability. Extensive experiments demonstrate that AnchorEdit achieves state-of-the-art results, maintaining exceptional subject fidelity and instruction following even over 10+ interaction rounds.
Abstract（参考訳）: マルチターン画像編集は反復的な設計には不可欠であるが、現在のモデルは連続するステップでアイデンティティのドリフトやエラーの蓄積に悩まされることが多い。既存の研究では、ビデオの優先順位を一貫性に活用しているが、双方向の注意への依存は、対話的編集の因果的、シーケンシャルな性質と根本的に違っている。本稿では,AnchorEditを提案する。AnchorEditは,高分解能,長期的マルチターン編集に特化して設計された,最初の自己回帰(AR)拡散ベースのフレームワークである。 AnchorEditは、ビデオの先行と因果推論のギャップを、3段階のトレーニングカリキュラムで埋めている。推論中に、初期被写体識別を固定し、拡張された編集軌跡をまたいで安定した外挿を確保するためのメモリ機構を導入する。そこで本研究では,ストレステストによる長期安定度向上を目的とした高分解能マルチターン編集ベンチマークを提案する。広範囲な実験により、AnchorEditは、10回以上のインタラクションラウンドの後に、例外的な主題の忠実さと指導を維持しながら、最先端の結果を達成することが実証された。

関連論文リスト

Edit-R2: Context-Aware Reinforcement Learning for Multi-Turn Image Editing [42.176441824728066]
統一マルチモーダルモデルのための新しい強化学習フレームワークであるEdit-R2を紹介する。作業中のセッション意図を再構築し、散在する歴史的制約を編集の各ターンの前に明確な推論トレースに効果的に統合する。強靭なベースラインに比べて競争力がある。
論文参考訳（メタデータ） (2026-06-04T09:49:47Z)
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文参考訳（メタデータ） (2026-03-19T17:59:51Z)
The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy [71.39358554558667]
我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
論文参考訳（メタデータ） (2025-12-16T14:08:00Z)
FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing [23.172235115031018]
トレーニング不要のフレームワークであるFreqEditを10回以上連続する安定した編集を可能にする。提案手法は,(1) 基準速度場からの高頻度特徴注入による細部情報保存,(2) 正確な領域特異的制御のために注入強度を空間的に調節する適応注入戦略,(3) 編集軌道を周期的に補正して過度制約を防ぐ経路補償機構の3つの相乗的成分からなる。
論文参考訳（メタデータ） (2025-12-01T15:00:47Z)
Video4Edit: Viewing Image Editing as a Degenerate Temporal Process [24.8621496006791]
マルチモーダル基礎モデルは、命令駆動の画像生成と編集を真にクロスモーダルで協調的な体制に推進した。我々は、時間モデリングのレンズを通してこの課題を再考する。この視点は、ビデオ事前学習から単一フレームの進化を先取りし、非常にデータ効率のよい微調整体制を実現する。
論文参考訳（メタデータ） (2025-11-22T17:30:55Z)
Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文参考訳（メタデータ） (2025-11-03T10:12:47Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。