論文の概要: ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RL
- arxiv url: http://arxiv.org/abs/2606.19103v1
- Date: Wed, 17 Jun 2026 14:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.196557
- Title: ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RL
- Title(参考訳): プロダクト一貫性: SFTとRLによるインストラクションベース画像編集における製品アイデンティティ保護の改善
- Authors: Mukund Khanna, Raj Singh Yadav, Kunal Singh,
- Abstract要約: 本稿では,製品中心の画像編集を改善するために設計されたProductConsistencyデータセットを紹介する。
当社のアプローチには,製品編集のための87kサンプルの教師付き微調整(SFT)データセットと,869のユニークな製品イメージを備えた強化学習(RL)データセットが含まれる。
RLトレーニングの指針として,製品識別のセマンティックな保存を強制するサイクル一貫性報酬を提案する。
- 参考スコア(独自算出の注目度): 4.71547360356314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in instruction-based image editing have enabled models to perform complex visual edits from natural language instructions. However, in product-centric scenarios where preserving product features, branding, and textual elements are critical, current open and closed source models often struggle to maintain this fine-grained object identity. This issue is further compounded by the lack of datasets for instruction-based product image editing with text fidelity constraints, leaving it largely treated as an implicit capability of instruction-based image editing models. In this work, we introduce the ProductConsistency dataset which is designed to improve product-centric image editing. Our approach includes a supervised fine-tuning (SFT) dataset of 87k samples for product editing, a reinforcement learning (RL) dataset with 869 unique product images, and a new benchmark dataset, the ProductConsistency Benchmark, to allow rigorous and standardized evaluation of editing models. To guide RL training, we propose a Cyclic Consistency reward that enforces semantic preservation of product identity by using caption similarity between the original product description and captions generated from the edited image. We fine-tune both Qwen-Image-Edit-2511 and Flux.1-Kontext-dev using our dataset and demonstrate consistent improvements over baseline models in OCR and Perceptual metrics, and MLLM-based evaluations as well, indicating stronger product consistency, text rendering, and overall visual quality; with the Qwen-Image-Edit-2511 model achieving a 5x reduction in the character error rate. The code and pipeline is available at https://anonymous.4open.science/r/ProductConsistency-6FCC/README.md
- Abstract(参考訳): 命令ベースの画像編集の最近の進歩により、モデルは自然言語命令から複雑な視覚的編集を実行できるようになった。
しかしながら、製品機能、ブランディング、テキスト要素の保存が重要な製品中心のシナリオでは、現在のオープンでクローズドなソースモデルは、このきめ細かいオブジェクトのアイデンティティを維持するのに苦労することが多い。
この問題は、命令ベースの製品画像編集のためのデータセットがテキストの忠実度制約によって欠如していることによってさらに複雑化しており、命令ベースの画像編集モデルの暗黙の能力として主に扱われている。
本稿では,製品中心の画像編集を改善するために設計されたProductConsistencyデータセットを紹介する。
我々のアプローチには、製品編集のための87kサンプルの教師付き微調整(SFT)データセットと、869のユニークな製品イメージを持つ強化学習(RL)データセットと、編集モデルの厳格かつ標準化された評価を可能にする新しいベンチマークデータセットであるProductConsistency Benchmarkが含まれている。
RLトレーニングのガイドとして,編集画像から生成したキャプションとオリジナル製品記述のキャプション類似性を利用して,製品識別のセマンティックな保存を強制するサイクル一貫性報酬を提案する。
我々は、このデータセットを用いてQwen-Image-Edit-2511とFlux.1-Kontext-devの両方を微調整し、OCRおよびPerceptualメトリクスのベースラインモデルよりも一貫した改善を示し、MLLMに基づく評価も行った。
コードとパイプラインはhttps://anonymous.4open.science/r/ProductConsistency-6FCC/README.mdで公開されている。
関連論文リスト
- CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning [65.10059440725041]
視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。
ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。
既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。
本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
論文 参考訳(メタデータ) (2026-03-18T20:57:31Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent [38.61468007698179]
そこで我々は,DescriptiveEditという記述型プロンプトベースの編集フレームワークを提案する。
中心となる考え方は「参照画像に基づくテキスト・ツー・イメージ生成」としての命令ベースの画像編集を再構築することである。
論文 参考訳(メタデータ) (2025-08-28T07:45:08Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。