論文の概要: FreeStory: Training-Free Character Consistency for Free-Form Visual Storytelling
- arxiv url: http://arxiv.org/abs/2606.25079v1
- Date: Tue, 23 Jun 2026 18:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.118663
- Title: FreeStory: Training-Free Character Consistency for Free-Form Visual Storytelling
- Title(参考訳): FreeStory: フリーフォームなビジュアルストーリーテリングのためのトレーニング不要な文字一貫性
- Authors: Sibo Dong, Ismail Shaheen, Sarah Adel Bargal,
- Abstract要約: FreeStoryは、自由形式のプロンプトの下で文字の一貫性を実体的な機能再利用として再構築する、トレーニング不要のフレームワークである。
提案手法は,参照参照と対応する文字記述を関連付け,動的文字マスク,対応性を考慮した特徴マッチング,キー値注入,クエリブレンディングを組み合わせる。
実験により、FreeStoryは構造化ベンチマーク上でのトレーニングフリーメソッドの最先端性能と、フリーフォームプロンプト下でのベースラインに対する全体的な一貫性の向上を実現している。
- 参考スコア(独自算出の注目度): 4.671002796177002
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual storytelling aims to generate image sequences that are both aligned with narrative prompts and consistent in character appearance across images. Recent training-free methods improve character consistency by reusing attention features, but rely on structured prompts where full character descriptions are repeated in every prompt. This assumption simplifies the task but deviates from natural storytelling, where characters are typically introduced once and later referred to using pronouns or type-based expressions. We propose \textbf{FreeStory}, a training-free framework that reformulates character consistency under free-form prompts as entity-grounded feature reuse. Our method associates reference mentions with their corresponding character descriptions and combines dynamic character masks, correspondence-aware feature matching, key-value injection, and query blending to preserve identity while retaining generation diversity. We also introduce \textbf{FreeStoryBench}, a benchmark for this setting that includes both single- and multi-character stories. Experiments show that FreeStory achieves state-of-the-art performance among training-free methods on structured benchmarks and stronger overall consistency over baselines under free-form prompts.
- Abstract(参考訳): ビジュアルストーリーテリングは、物語のプロンプトに一致し、画像間のキャラクタの外観に一貫性のある画像シーケンスを生成することを目的としている。
近年のトレーニングフリーな手法は注意機能を再使用することで文字の一貫性を向上させるが、すべてのプロンプトでフル文字記述が繰り返される構造化プロンプトに依存している。
この仮定はタスクを単純化するが、自然のストーリーテリングから逸脱する。
我々は,自由形式のプロンプトの下で文字の一貫性を実体的特徴再利用として再構成する,トレーニング不要のフレームワークである‘textbf{FreeStory} を提案する。
提案手法は,参照参照記述と対応する文字記述を関連付け,動的文字マスク,対応対応型特徴マッチング,キー値注入,クエリブレンディングを組み合わせることで,生成多様性を維持しつつアイデンティティを保持する。
また、この設定のためのベンチマークである \textbf{FreeStoryBench} も導入しています。
実験により、FreeStoryは構造化ベンチマーク上でのトレーニングフリーメソッドの最先端性能と、フリーフォームプロンプト下でのベースラインに対する全体的な一貫性の向上を実現している。
関連論文リスト
- DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling [1.7683026013361776]
DeCorStoryは、フレーム間のセマンティック干渉を減らす、トレーニング不要な推論時間フレームワークである。
フレームレベルのセマンティクスに即時埋め込みデコリレーションを適用し、続いて特異値の再重み付けを行い、プロンシブ固有情報を強化する。
実験は、迅速なイメージアライメント、アイデンティティの整合性、視覚的多様性において一貫した改善を示す。
論文 参考訳(メタデータ) (2026-02-01T16:07:30Z) - TaleDiffusion: Multi-Character Story Generation with Dialogue Rendering [13.076013597876623]
TaleDiffusionは、反復的なプロセスで複数文字のストーリーを生成するための新しいフレームワークである。
ストーリーが与えられたら、プレトレーニングされたLLMを使用して、フレームごとの記述、文字の詳細、対話を生成します。
次に、フレーム間の文字の整合性を確保するためのアイデンティティ一貫性を持つ自己認識機構と、正確なオブジェクト配置のための領域認識相互アテンションを適用した。
論文 参考訳(メタデータ) (2025-09-04T11:37:06Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。