論文の概要: RAVA: Retrieval-Augmented Viewpoint Alignment for Subject-Driven Image Generation
- arxiv url: http://arxiv.org/abs/2606.17619v1
- Date: Tue, 16 Jun 2026 07:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.33077
- Title: RAVA: Retrieval-Augmented Viewpoint Alignment for Subject-Driven Image Generation
- Title(参考訳): RAVA:対象駆動画像生成のための検索拡張視点アライメント
- Authors: Qiwei Yan, Zhiqiang Yuan, Chongyang Li, Jiapei Zhang, Ying Deng, Jinchao Zhang, Jie Zhou,
- Abstract要約: クロスオブジェクト視点アライメントは、参照駆動画像生成における課題である。
生成前に明示的な幾何学的証拠を提供する検索拡張フレームワークであるRAVAを提案する。
RAVAは、クロスオブジェクト生成におけるゼロショットベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 21.751544721133005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-driven image generation has made rapid progress on identity preservation, but reliable viewpoint control across different subjects remains poorly understood. The difficulty is not merely generating a new image of the target subject: the model must infer the implicit viewpoint of one subject and transfer it to another subject using only image-level evidence, without camera poses, depth, or ray-based conditions. In this setting, existing generators conditioned on multiple image references often rely on spurious semantic correlations, which lead to viewpoint drift, part-level structural mismatches, and missing or unsupported target-specific content. We formulate this challenge as cross-subject viewpoint alignment and propose RAVA, a retrieval-augmented framework that supplies explicit geometric evidence before generation. RAVA first learns a cross-instance viewpoint embedding that retrieves target-subject images aligned with the anchor viewpoint, then applies a LogDet-based subset selection strategy to retain a compact reference set that is both view-consistent and structurally complementary. The selected references are finally consumed by a fine-tuned multi-reference image generator. Experiments show that generic semantic embeddings are nearly random for this task, while the proposed retriever substantially improves viewpoint retrieval quality. On cross-subject generation, RAVA consistently outperforms zero-shot baselines and stronger retrieval alternatives under the same generation backbone. These results indicate that cross-subject viewpoint alignment benefits from retrieval-augmented geometric grounding rather than relying on end-to-end generation alone.
- Abstract(参考訳): 参照駆動画像生成は、アイデンティティ保存を急速に進歩させたが、異なる対象に対する信頼性の高い視点制御は、いまだに理解されていない。
モデルは、ある被写体の暗黙の視点を推論し、カメラのポーズ、深度、光線に基づく条件なしに、画像レベルの証拠のみを使用して別の被写体に転送する必要がある。
この設定では、複数の画像参照に条件付けされた既存のジェネレータは、しばしば、視点のドリフト、部分レベルの構造ミスマッチ、または、サポートされていないターゲット固有のコンテンツに繋がる、突発的な意味的相関に頼っている。
我々は、この課題をオブジェクト間の視点アライメントとして定式化し、生成前に明示的な幾何学的証拠を提供する検索強化フレームワークであるRAVAを提案する。
RAVAはまず、アンカー視点に沿ったターゲットオブジェクト画像を取得するクロスインスタンス視点埋め込みを学習し、次にLogDetベースのサブセット選択戦略を適用して、ビュー一貫性と構造的に相補的なコンパクトな参照セットを保持する。
選択された参照は、最終的に微調整されたマルチ参照画像生成装置によって消費される。
実験により, 汎用的なセマンティックな埋め込みがほぼランダムであることを示し, 提案手法は視点検索の精度を大幅に向上させる。
クロスオブジェクト生成では、RAVAはゼロショットベースラインと、同じ世代のバックボーンの下でより強力な検索代替品を一貫して上回る。
これらの結果から, 物体間視線アライメントは, 端対端生成のみに依存するのではなく, 検索強化幾何グラウンドリングの恩恵を受けることが示唆された。
関連論文リスト
- Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval [56.72697928941446]
Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせた柔軟なマルチモーダルクエリを可能にすることで、大きな可能性を実証している。
我々は、厳密なインスタンスレベルの一貫性を規定する新しいきめ細かい検索タスクであるObject-Anchored Composed Image Retrieval (OACIR)を提案する。
論文 参考訳(メタデータ) (2026-04-07T03:43:01Z) - Self-Corrected Image Generation with Explainable Latent Rewards [55.29175717238288]
我々は、説明可能なLatent RewarDを通じて生成をガイドする自己修正フレームワークであるxLARDを提案する。
xLARDは、モデル生成参照からの構造化されたフィードバックに基づいて遅延表現を洗練する軽量な修正器を導入している。
実験により、xLARDは、生成前の状態を維持しながら、意味的アライメントと視覚的忠実性を改善することが示された。
論文 参考訳(メタデータ) (2026-03-26T02:59:35Z) - SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation [62.55421542903781]
生成された画像の空間的レイアウトを評価するために明示的に設計された検証可能な報酬モデルである textbfSpatialReward を提案する。
安定拡散とFLUXの実験により、空間的リワードをRLトレーニングに組み込むことで、空間的一貫性と全体的な生成品質が一貫して向上することが示された。
論文 参考訳(メタデータ) (2026-03-23T17:26:35Z) - Cross-modal RAG: Sub-dimensional Text-to-Image Retrieval-Augmented Generation [16.411920699543774]
Cross-modal RAGは、クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークである。
本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。
MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGが検索において既存のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-05-28T04:09:49Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - RetriBooru: Leakage-Free Retrieval of Conditions from Reference Images for Subject-Driven Generation [30.143033020296183]
拡散に基づく手法は、様々な高品質な画像を生成する能力を実証している。
顔と布の同一性の両方でアニメキャラクターをグループ化するマルチレベル同一性データセットRetriBooruを提案する。
条件付きエンコーダは複数の参照画像から異なる概念を検索する。
論文 参考訳(メタデータ) (2023-12-05T06:04:16Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。