Fugu-MT 論文翻訳(概要): IEA: Amateur-Friendly Conversational Image Editing Agent via Three Stages of Multitask Alignment

論文の概要: IEA: Amateur-Friendly Conversational Image Editing Agent via Three Stages of Multitask Alignment

arxiv url: http://arxiv.org/abs/2606.08016v1
Date: Sat, 06 Jun 2026 07:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.666259
Title: IEA: Amateur-Friendly Conversational Image Editing Agent via Three Stages of Multitask Alignment
Title（参考訳）: IEA:3段階のマルチタスクアライメントによるアマチュアフレンドリーな画像編集エージェント
Authors: Zichen Zhu, Yuheng Sun, Mingxuan Zhu, Wenjie Ma, Situo Zhang, Zhexiang Wang, Ziyue Yang, Danyang Zhang, Kunyao Lan, Zihan Zhao, Dingye Liu, Siqi Xiang, Lu Chen, Kai Yu,
Abstract要約: 我々は、パラメータ化されたツールを明示的かつ解釈可能なアクション空間で操作することを学ぶ対話型画像編集エージェントIEAを提案する。 IEAは3段階のマルチタスクパイプラインを通じて訓練される: 蒸留された専門家編集のSFT、類似性の改善、ツール有用性、意図の要約のための報奨付きGRPO、(3)画像編集、精細化、ユーザ意図の要約を共同でマスターするための大規模合成微調整。
参考スコア（独自算出の注目度）: 16.199788035961564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current image editing software often hinges on fixed filters or expert tuning, leaving a gap between amateur users' intent and outcomes. Creations by generative models may contain artifacts, implausible details, or stylistic drift away from photorealism and offer little insight into why an edit was made. We propose IEA, a conversational Image Editing Agent that learns to operate parameterized tools in an explicit, interpretable action space. IEA is trained via a three-stage multitask pipeline: (1) SFT on distilled expert edits, (2) GRPO with rewards for likeness improvement, tool usefulness, and intent summarization, and (3) large-scale synthetic fine-tuning to jointly master image editing, refinement, and user intent summarization. By manipulating 16 editing tools step by step, IEA produces transparent edit traces that can be inspected and debugged. In quantitative experiments, it attains a lower pixel distance on the edit task and a higher ROUGE-L on the summary task than strong baselines. In user studies, it ranks best among tool-calling methods for instruction following while surpassing generative methods in overall perceptual quality. Our results validate interpretable, tool-centric VLMs as a reliable path to human instruction-guided image retouching.
Abstract（参考訳）: 現在の画像編集ソフトウェアは、しばしば固定フィルタや専門家のチューニングに依存しており、アマチュアユーザーの意図と結果のギャップを残している。生成モデルによる創造物には、アーティファクト、不明瞭な詳細、フォトリアリズムからのスタイル的な逸脱が含まれており、なぜ編集されたのかについての洞察はほとんどない。我々は、パラメータ化されたツールを明示的かつ解釈可能なアクション空間で操作することを学ぶ対話型画像編集エージェントIEAを提案する。 IEAは,(1)蒸留された専門家編集のSFT,(2)類似性の向上,ツール有用性,意図の要約に対する報奨付きGRPO,(3)画像編集,精細化,ユーザ意図の要約を併用した大規模合成微調整という3段階のマルチタスクパイプラインを通じて訓練される。 16の編集ツールをステップごとに操作することで、IEAは透過的な編集トレースを生成し、検査やデバッグを行うことができる。定量的な実験では、編集タスクの画素距離が低く、要約タスクのROUGE-Lが強いベースラインよりも高い。ユーザスタディでは、全体的な知覚的品質において、生成的手法を超越しながら、指示に従うためのツールコール方法の中で最もランク付けされている。本研究は,人間の指導指導による画像修正への信頼性の高い経路として,解釈可能なツール中心のVLMを検証した。

関連論文リスト

Rethinking Scribble-Guided Image Editing: Generalization, Instruction Adherence, and Multi-Tasking [14.173267480504842]
スクリブル誘導画像編集により、ユーザーは単純なスクリブルアノテーションとテキストプロンプトを組み合わせることで、画像の編集場所と編集方法の両方を指定できる。既存のモデルは、特にマルチタスクシナリオにおいて、このパラダイムの下で不安定なパフォーマンスを示す。オープンソース編集モデルを用いて実証的研究を行い、一般化における非対称性を明らかにする。
論文参考訳（メタデータ） (2026-05-25T08:20:23Z)
MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文参考訳（メタデータ） (2025-11-26T06:13:32Z)
UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying [64.5307229755533]
画像編集機能を備えた統合VLMを実現するために,UniEdit-Iという新しいトレーニングフリーフレームワークを導入する。我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
論文参考訳（メタデータ） (2025-08-05T06:42:09Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills [37.48977077142813]
本稿では,MLLM(Multimodal large language model)を生画像の批判に応用できることを示す。 MLLMは、その基盤となる画像処理操作を最初に認識できることを実証する。そして、専門家が編集した写真を手続き的に操作することで、推論データセットを合成する。
論文参考訳（メタデータ） (2025-05-09T16:38:27Z)
Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。 LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文参考訳（メタデータ） (2025-02-05T06:24:25Z)
UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文参考訳（メタデータ） (2024-02-21T18:36:26Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。