Fugu-MT 論文翻訳(概要): CoVEBench: Can Video Editing Models Handle Complex Instructions?

論文の概要: CoVEBench: Can Video Editing Models Handle Complex Instructions?

arxiv url: http://arxiv.org/abs/2606.08415v1
Date: Sun, 07 Jun 2026 02:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.095971
Title: CoVEBench: Can Video Editing Models Handle Complex Instructions?
Title（参考訳）: CoVEBench:ビデオ編集モデルは複雑な命令を扱えるか?
Authors: Jiangtao Wu, Jiaming Wang, Yiwen He, Yuanxing Zhang, Shihao Li, Dunyuan Liu, Xuedong Zhao, Jialu Chen, Zekun Moore Wang, Jiaheng Liu,
Abstract要約: CoVEBenchは、416のキュレートされたソースビデオ、626のマルチポイント編集命令、9,990のきめ細かいチェックリスト項目からなる合成ビデオ編集ベンチマークである。 MLLM-judged命令コンプライアンスとビデオ忠実度によるモデルの評価と、ビデオ品質の自動測定を行う。
参考スコア（独自算出の注目度）: 26.871333176496126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests are highly compositional. A single prompt often demands multiple coupled edits, such as modifying subjects, actions, and camera views, while strictly preserving unrelated spatiotemporal content. Existing benchmarks, heavily constrained by isolated edits and coarse global metrics, fail to diagnose how models handle such complex workflows. To address this gap, we introduce CoVEBench, a compositional video editing benchmark comprising 416 curated source videos, 626 multi-point editing instructions, and 9,990 fine-grained checklist items. Covering diverse editing dimensions, CoVEBench evaluates models via MLLM-judged instruction compliance and video fidelity, alongside automated metrics for video quality. Extensive experiments reveal that compositional editing remains a profound challenge: current models frequently omit edits, violate preservation constraints, or introduce artifacts when handling multiple operations simultaneously. CoVEBench provides a challenging, diagnostic testbed to advance video editing toward realistic user workflows.
Abstract（参考訳）: 最近のテキスト誘導ビデオ編集モデルは、基本的なタスク(例えば、スタイル転送、オブジェクト挿入)で優れていますが、現実のユーザ要求は、非常に構成的です。 1つのプロンプトは、主題、アクション、カメラビューの変更などの複数の統合された編集を必要とすることが多いが、厳密には無関係な時空間コンテンツを保存している。既存のベンチマークは、独立した編集や大まかなグローバルメトリクスによって厳しく制約されているため、モデルがこのような複雑なワークフローを処理する方法の診断に失敗する。このギャップに対処するため、CoVEBenchは、416のキュレートされたソースビデオ、626のマルチポイント編集命令、9,990のきめ細かいチェックリスト項目からなる合成ビデオ編集ベンチマークである。さまざまな編集範囲をカバーするため、CoVEBenchはMLLM-judged命令コンプライアンスとビデオ忠実度によるモデルの評価と、ビデオ品質の自動測定を行う。現在のモデルは、しばしば編集を省略したり、保存制約に違反したり、複数の操作を同時に処理する際にアーティファクトを導入したりする。 CoVEBenchは、現実的なユーザワークフローに向けて、ビデオ編集を前進させるための、困難な診断テストベッドを提供する。

関連論文リスト

UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs [19.634771714749544]
We present UniEditBench, a unified benchmark for image and video editing。 UniEditBenchは、共有プロトコルの下で再構成と命令駆動のメソッドをサポートする。我々は,高容量MLLM判定器を軽量4B/8B評価器に蒸留し,ビデオの構造的忠実度,テキストアライメント,背景整合性,自然性,時間空間的一貫性を多次元的に評価する。
論文参考訳（メタデータ） (2026-04-17T09:21:48Z)
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T17:59:30Z)
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks [46.87912659985628]
MultiEditは、107K以上の高品質の画像編集サンプルを備えた包括的なデータセットである。 18の非スタイルの編集タイプと38のスタイルの転送操作の多様なコレクションを通じて、6つの困難な編集タスクを含んでいる。我々は、2つのマルチモーダル大言語モデル(MLLM)を用いて視覚適応的な編集命令を生成する新しいデータセット構築パイプラインを用いる。
論文参考訳（メタデータ） (2025-09-18T05:33:38Z)
O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークであるこの信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。 O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文参考訳（メタデータ） (2025-09-01T16:29:39Z)
UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文参考訳（メタデータ） (2025-05-18T02:30:52Z)
PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset [27.706882926164724]
PRIMEditはゼロショットフレームワークで、インスタンス中心のProbability ReistributionとDisentangled Multi-instance Samplingという2つの主要なモジュールを導入している。我々は,多種多様なビデオシナリオを特徴とするビデオ編集のための新しいMIVEデータセットを提案し,編集リークを評価するためにCross-Instance Accuracy (CIA) Scoreを紹介した。 PRIMEditは, 信頼性, 正確性, 漏洩防止の両面において, 最近の最先端手法を著しく上回り, 質的, 定量的, ユーザスタディ評価を行った。
論文参考訳（メタデータ） (2024-12-17T13:00:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。