Fugu-MT 論文翻訳(概要): Text-Vision Co-Instructed Image Editing

論文の概要: Text-Vision Co-Instructed Image Editing

arxiv url: http://arxiv.org/abs/2606.16767v1
Date: Mon, 15 Jun 2026 14:16:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.608204
Title: Text-Vision Co-Instructed Image Editing
Title（参考訳）: テキストビジョン協調画像編集
Authors: Chenxi Xie, Yuhui Wu, Qiaosi Yi, Lei Zhang,
Abstract要約: 本稿では,テキスト・ビジョン・コインストラクテッド・イメージ編集について紹介する。意味的意図と空間的制約を統合することで、TV-Editはより正確な空間制御、命令のあいまいさの低減、テキストのみやドラッグベースの代替よりも構造的一貫性の強化につながる。
参考スコア（独自算出の注目度）: 11.968553566506626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing image editing methods can be generally categorized into textual instruction-based and visual prompt-based ones. Textual instructions are semantically expressive, but are limited by the coarse granularity of spatial control of the editing results. In contrast, visual prompts such as drag and point can provide precise spatial guidance, but are limited by the inherent ambiguity in semantic intent. To unify the strength of textual and visual prompts, we present Text-Vision Co-Instructed Image Editing, which jointly models textual instructions as semantic intent and sparse visual instructions as spatial guidance, aiming to achieve precise and intent-faithful image manipulation. To this end, we first construct a textual-visual instruction paired dataset with more than 23K samples derived from dynamic videos, enabling aligned supervision for cross-modal instruction. We then propose TV-Edit, a Textual-Visual instruction unified Editing framework to contextualize drag or point-based visual instructions with image-text semantics and lift them into semantic-aware control representations for pretrained editing backbones. By integrating semantic intent and spatial constraints, TV-Edit leads to more precise spatial control, less instruction ambiguity, and stronger structural consistency than text-only or drag-based alternatives. Finally, we establish TV-Edit-Bench, a deliberately designed benchmark to evaluate semantic faithfulness, spatial alignment, and visual consistency with ground-truth references and controlled textual-visual variations for reliable assessment. Our experiments across multiple editing backbones demonstrate that TV-Edit consistently yields more precise and intent-faithful edits, significantly outperforming state-of-the-art instruction-based and drag-based baselines.
Abstract（参考訳）: 既存の画像編集手法は、テキストによる命令ベースと視覚的なプロンプトベースに分類される。テキスト命令は意味的に表現されるが、編集結果の空間制御の粗い粒度によって制限される。対照的に、ドラッグやポイントのような視覚的なプロンプトは正確な空間的ガイダンスを提供することができるが、意味的意図における固有の曖昧さによって制限される。テキストと視覚的プロンプトの強みを統一するために,テキスト・ビジョン・コインストラクテッド・イメージ編集(Text-Vision Co-Instructed Image Editing)を提案する。そこで我々はまず,動的ビデオから23K以上のサンプルを抽出したテキスト-視覚的命令ペア型データセットを構築し,クロスモーダル・インストラクションの調整を可能にする。テキスト・ビジュアル・インストラクション統合編集フレームワークであるTV-Editを提案し、ドラッグやポイントベースのビジュアル・インストラクションを画像テキストのセマンティクスで文脈化し、それらを予め訓練された編集バックボーンのセマンティック・アウェア・コントロール・表現へと持ち上げる。意味的意図と空間的制約を統合することで、TV-Editはより正確な空間制御、命令のあいまいさの低減、テキストのみやドラッグベースの代替よりも構造的一貫性の強化につながる。最後に,感性的忠実度,空間的アライメント,視覚的整合性を評価するために意図的に設計されたベンチマークであるTV-Edit-Benchを構築し,信頼性の高い評価を行う。複数の編集バックボーンにまたがる実験により、TV-Editはより正確で意図に満ちた編集を実現し、最先端のインストラクションベースとドラッグベースベースラインを著しく上回ります。

関連論文リスト

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control [50.76070785417023]
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
論文参考訳（メタデータ） (2025-11-12T20:21:37Z)
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing [76.44219733285898]
Kontinuous Kontext は命令駆動の編集モデルであり、編集強度を制御できる新しい次元を提供する。軽量プロジェクタネットワークは、入力スカラーと編集命令をモデルの変調空間の係数にマッピングする。本モデルのトレーニングには,既存の生成モデルを用いて,画像編集・指導・強化四重項の多種多様なデータセットを合成する。
論文参考訳（メタデータ） (2025-10-09T17:51:03Z)
SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文参考訳（メタデータ） (2025-10-06T17:51:04Z)
TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation [51.72432192816058]
共同ドラッグテキスト画像編集のための拡散型統合フレームワークを提案する。本フレームワークでは,(1)3次元特徴マッピングによる遅延空間レイアウト制御を向上するポイント・クラウド決定性ドラッグ,(2)ドラッグ・テキスト・ガイド・デノナイズ(Drag-Text Guided Denoising),(2)デノナイズ中のドラッグとテキスト条件の影響を動的にバランスするDrag-Text Guided Denoisingを導入している。
論文参考訳（メタデータ） (2025-09-26T05:39:03Z)
DragText: Rethinking Text Embedding in Point-based Image Editing [3.4248731707266264]
ポイントベースの画像編集は、コンテンツドラッグによる正確で柔軟な制御を可能にする。編集過程におけるテキスト埋め込みの役割については,まだ十分に研究されていない。そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文参考訳（メタデータ） (2024-07-25T07:57:55Z)
DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。 Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文参考訳（メタデータ） (2024-04-27T22:45:47Z)
TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。 TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文参考訳（メタデータ） (2024-01-26T12:57:05Z)
Cut-and-Paste: Subject-Driven Video Editing with Attention Control [47.76519877672902]
本稿では,テキストプロンプトと追加参照画像の指導のもと,実単語のセマンティックビデオ編集のための「カット・アンド・ペースト」という新しいフレームワークを提案する。現在の方法と比較すると、メソッドのプロセス全体は編集対象のソースオブジェクトをカットし、参照イメージによって提供されるターゲットオブジェクトをカットする。
論文参考訳（メタデータ） (2023-11-20T12:00:06Z)
Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文参考訳（メタデータ） (2022-08-02T17:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。