論文の概要: Taming I2V models for Image HOI Editing: A Cognitive Benchmark and Agentic Self-Correcting Framework
- arxiv url: http://arxiv.org/abs/2606.19073v1
- Date: Wed, 17 Jun 2026 13:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.184479
- Title: Taming I2V models for Image HOI Editing: A Cognitive Benchmark and Agentic Self-Correcting Framework
- Title(参考訳): 画像HOI編集のためのI2Vモデルモデリング:認知ベンチマークとエージェント自己修正フレームワーク
- Authors: Jiayi Gao, Qingchao Chen, Yuxin Peng, Yang Liu,
- Abstract要約: 現在の画像編集法は静的属性で優れているが、複雑なHuman-Object Interactions (HOI)では失敗する
3つの進歩的認知レベルを持つ総合的なベンチマークであるHOI-Editを紹介する。
HOI-Editでは、SCPEは対話におけるNano Bananaのような最先端(SOTA)編集モデルと競合するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 62.705866028818576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current image editing methods excel at static attributes but fail at complex Human-Object Interactions (HOI), a critical challenge unaddressed by existing benchmarks that conflate HOI with static attributes, relying on global metrics incapable of simultaneously assessing dynamic interaction validity and entangled human-object pair preservation. Thus, we first introduce HOI-Edit, a comprehensive benchmark with three progressive cognitive levels, which features an automated metric HOI-Eval that reliably evaluates instance-level interaction by letting VLM Q&A after thinking with images containing grounded Human-Object pairs. Considering the task's essence of remodeling dynamic relationships, we benchmark Image-to-Video (I2V) models, finding them inherently suited for dynamic editing due to their temporal generation capabilities. Crucially, beyond superior performance, this capability provides a "replay of the failure process," offering unique diagnosability into why errors occur. We thus propose SCPE (Self-Correcting Process Editing), a novel, agentic self-correcting framework that constrains the generation of I2V models through iteratively refined prompts, enabling the generated videos to more accurately present the target HOI. Extracted frames from these videos are the final editing results. On HOI-Edit, SCPE achieves performance competitive with state-of-the-art (SOTA) editing models like Nano Banana on interaction. Code is available at https://github.com/oceanflowlab/HOI-Edit.
- Abstract(参考訳): 現在の画像編集手法は静的属性では優れているが、複雑なHuman-Object Interactions (HOI)では失敗する。これは、Human-Object Interactions (HOI)は、静的属性とHOIを分割する既存のベンチマークでは、動的相互作用の妥当性と絡み合ったオブジェクトペア保存を同時に評価できないグローバルなメトリクスに依存している。
そこで我々はまず,3つの進歩的認知レベルを持つ総合的なベンチマークであるHOI-Editを紹介した。このベンチマークは,人間とオブジェクトのペアを接地した画像について検討した後,VLMのQ&Aを行うことによって,インスタンスレベルのインタラクションを確実に評価する自動メトリクスHOI-Evalを備えている。
動的関係をモデル化するタスクの本質を考慮し、画像対ビデオ(I2V)モデルをベンチマークし、時間生成能力により動的編集に本質的に適していることを示す。
重要なことに、この機能は優れたパフォーマンス以上の「障害プロセスの再生」を提供し、なぜエラーが発生したのかをユニークな診断性を提供する。
SCPE(Self-Correcting Process Editing)は,反復的に改良されたプロンプトによってI2Vモデルの生成を制限し,生成したビデオがより正確にターゲットHOIを提示することを可能にする,新規なエージェント型自己修正フレームワークである。
これらのビデオから抽出されたフレームが最終的な編集結果である。
HOI-Editでは、SCPEは対話におけるNano Bananaのような最先端(SOTA)編集モデルと競合するパフォーマンスを実現している。
コードはhttps://github.com/oceanflowlab/HOI-Editで入手できる。
関連論文リスト
- DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model [10.609050605838805]
本稿では,IIEMの小型オブジェクト編集能力を評価するための最初のベンチマークであるDeepLookEditBenchを紹介する。
7つの命令タイプにわたる1889のサンプルからなる挑戦的なテストベッドを構築した。
これらのサンプルでは、ターゲットオブジェクトは画像領域の1%-10%しか占めておらず、部分閉塞や複数オブジェクト編集といった複雑なシナリオをカバーしている。
10個のIIEMの実証的な結果から、小規模オブジェクト編集における大きなパフォーマンスギャップが明らかとなり、この機能を前進させるための特別なベンチマークの必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2026-02-27T02:59:34Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - ReCorD: Reasoning and Correcting Diffusion for HOI Generation [26.625822483049426]
これらの課題に対処するために、Reasoning and Correcting Diffusion (ReCorD)を導入します。
我々のモデルは、生成プロセスを洗練させるために、潜在拡散モデルとビジュアル言語モデルを結合する。
我々は3つのベンチマークで包括的な実験を行い、テキスト・画像生成タスクの大幅な進歩を実証した。
論文 参考訳(メタデータ) (2024-07-25T10:06:26Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。